Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

dimalp777

Спасибо большое O0

Сегодня же исправлю это.

dimalp777

И снова я :facepalm:

Проблема теперь такова что в поиске только 2 страницы.

Взял робот из первого сообщения, изменил всё под свой форум.

Прошёл месяц и робот был на сайте больше 6 раз, но результат не изменился.  ???

Yworld_garry

Цитата: dimalp777 от 14 апреля 2014, 12:09:13И снова я
Вы про форум из ваших прежних сообщений?
У вас на форуме 29 постов, что вы хотите получить от яндекса?

dimalp777

Страниц в поиске    2      
Внешних ссылок на страницы сайта   1462   
Дата последнего посещения сайта роботом   12.04.2014         
Загружено роботом   92   
Исключено роботом   90   


Yworld_garry

И к чему статистика без урлов и тд?

Я вам написал, что вы хотите получить от яндекса, имея форум с 29 сообщениями?


Исключено роботом   90  - наверно мусор всякий.

dimalp777


Yworld_garry


kak2z

Друзья, у нас тут с коллегой возник вопрос. С тем роботосом что предоставлен в первом посте не индексируются картинки на форуме. Происходит это изза этого правила:
ЦитироватьDisallow: /*action

так как картинки выглядят таким образом

Цитировать/index.php?action=dlattach;topic=89930.0;attach=414198;image

насколько я понимаю (да и яндекс так сказал) что бы разрешить индексацию картинок надо добавить такое правило

ЦитироватьAllow: /*action=dlattach

а теперь вопрос)) даже несколько
1. Почему изначально стоит запрет на индексацию картинок?
2. Чем грозит если их открыть?
3. Как сделать автоматически генерируемый alt для картинок? (вроде где то мод такой видел но не нашел)
Спасибо.
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Yworld_garry

1. Как правило картинки на форумах не уникальные и отсюда все вытекающие.
Да и закрыты аттачи в которых масса не нужного в поисковиках. Остальные картинки индексируются, плюс легко открыть любой нужный action, о чем тут масса всего написано.
2. Смотрим пункт первый)))
3. Что то такое есть.

И думаю что бы и если захочется все же открыть картинки во вложениях, то лучше не открывать все аттачи, так как там кроме картинок все что угодно может быть.

Allow: /*image # Не проверял, но что то такое.

Serifa

Раз пошла такая пьянка... У меня в одной из тем прикреплены как раз-таки уникальные картинки. Как их можно разрешить? Понимаю, что "масса всего написана", но если попроще?
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Серый Лис

#1060
До поры, времени до этих роботсов не было никакого дела, буду разбираться

kak2z

Цитата: Yworld_garry от 21 апреля 2014, 00:19:18Allow: /*image # Не проверял, но что то такое.
не срабатывает правило... как еще можно)?
Спасибо)))
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Серый Лис

#1062
удалите плз.

Yworld_garry

Цитата: kak2z от 21 апреля 2014, 11:57:00не срабатывает правило... как еще можно)?
Allow: /*action*image# проверить надо на не картинках...картинки наверно будут открыты, да и в гугле проверить.

И пустую строку перед хостом и картой убрать стоит.

Yworld_garry

Цитата: Серый Лис от 21 апреля 2014, 14:10:02Подскажите плз. правильно или нет?
Вообще у вас включены "красивые урлы" или как то так называются, а писали тысячу раз, что это не ЧПу и включив их мусора не оберетесь.
Во вторых, зачем писать для каждого отдельно, хотя для медийных можно. Но все равно у вас там доступ закрыт и функция назначения групп срабатывает 1 раз из 100. Так что не увидят.
В третьих, без понятия правильно или нет, тут нужен весь роботс.
В четвертых, при таких урлах, все равно дубли будут.


Yworld_garry

Цитата: digger® от 21 апреля 2014, 14:36:37Надо в переводе FrendlyUrls перевести как "Кривые урлы"  дабы намекало...

Точно, использовать на свой страх и риск))))

Серый Лис

#1067
спс, буду учить.   упс... насилу прочитал все 22 страницы, капеец, пока в башке туман..
не пойму что такое ЧПу
Yworld_garry + за "Сизифов труд" и терпение

Yworld_garry

Цитата: Серый Лис от 21 апреля 2014, 16:59:57что такое ЧПу
человекопонятный урл

Вот например одна страница, первый вариант без ЧПУ, второй с ним.
/index.php?topic=5089
/pravila-foruma-net-besplodiju/setevoj-jetiket/

Серый Лис

Цитата: Yworld_garry от 21 апреля 2014, 22:47:44
человекопонятный урл

Вот например одна страница, первый вариант без ЧПУ, второй с ним.
/index.php?topic=5089
/pravila-foruma-net-besplodiju/setevoj-jetiket/

..о мэйн гот! )  Теперь ясна ирония Диггера..
Спс Гарри, наверно я отсталый человек или нужно еще пару лет пробыть на форуме чтобы понять некоторые аббревиатуры или многое перечитывать но новой

Серый Лис

Короче говоря, перечитав все 22 страницы, сделал так. Установил Sitemap, переписал вот такой robots.txt
Разрешений практически нет, так как интересного ничего нет. Сайт автонаправленности, пускай роботсы " шарятся" по каталогам запчастей, более ничего не нужно.
User-agent: *Allow: /*sitemap
Allow: /*rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*PHPSESSID
User-agent: Slurp
Crawl-delay: 100

Роботса закинул в /
Надеюсь верно..
   

Yworld_garry


Точнее вот так: ваш домен/robots.txt

Ниже файл из первого поста:

# Google, StackRambler, Yandex, Aport - Важные боты для нас.
# К сожалению их останавливает тег noindex.
# Если вы удалили noindex конструкцию то это должно пригодиться.
# Для всех ботов
User-agent: *
Allow: /*sitemap
Allow: /*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100

Серый Лис

Я конечно дико извиняюсь.. к сожалению упустил момент первого поста, а брал пример уже далее.
значит файл robots должен иметь такое имя? http://zapchasti-kadett.in.ua/index.php/robots.txt
Если вы удалили noindex конструкцию.  Таковую не удалял, даже не знаю где она. Редиректа у меня нет.
переписал, так верно?

User-agent: *Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php # либо тот редирект что стоит у вас ???   не знаю что делать с этой строкой?
Host: http://zapchasti-kadett.in.ua/index.php
User-agent: Slurp
Crawl-delay: 100


Yworld_garry

http://zapchasti-kadett.in.ua/robots.txt

Disallow: /forum/*go.php #Установить мод и настроить, попробуйте тут перейти по вот этой внешней ссылке и увидите его работу. http://tv.yandex.ru/2/
Про ноиндекс не берите в голову, все ок будет.

Host: zapchasti-kadett.in.ua # если это главное зеркало

перед этим пропуск строки
User-agent: Slurp
Crawl-delay: 100

Серый Лис

#1074
Я вас понял.  zapchasti-kadett.in.ua/robots.txt
Да,  http://zapchasti-kadett.in.ua/index.php это главная страница сайта. Пропуск строки сделал, забыл сказать установил еще мод Optimus Brave.

Серый Лис

#1075
Вообщем закругляюсь, название роботса.. http-//zapchasti-kadett.in.ua/robots.txt
Содержание

User-agent: *Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Host: zapchasti-kadett.in.ua

User-agent: Slurp
Crawl-delay: 100

Вроде все. Вам Yworld_garry спасибо большое за помощь!
(и желаю вам отличного клева, побольше щук и окуней!) 

Серый Лис

#1076
Не вышло закруглиться, начал по новой. Отредактировал robots

User-agent: Slurp
Allow: /

User-agent: Googlebot
Allow: /

User-agent: Yandex
Allow: /

User-agent: MSNBot
Allow: /

User-agent: *Allow: /*sitemap: http://zapchasti-kadett.in.ua/sitemap.xml
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Host: zapchasti-kadett.in.ua

User-agent: Slurp
Crawl-delay: 100

Как забросил робота  в корень сервера, тут же пришел Яша, следом прискакал Гугль.
MSN и Yahoo нет, мож отредактировал не верно..?

vivilora

Привет, подскажите пожалуйста, правильно ли я сделала роботс. Сам форум http://mother-and-baby.ru/forum/index.php Роботс всего сайта

User-agent: *
Disallow: /goto
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /category/*/*
Disallow: */comment
Disallow: /comments/
Disallow: */comments/
Disallow: /author/*
Disallow: /*?replytocom*
Disallow: /search/
Disallow: /scripts/
Disallow: /?s=

User-agent: Yandex
Disallow: /goto
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /category/*/*
Disallow: */comment
Disallow: /comments/
Disallow: */comments/
Disallow: /author/*
Disallow: /*?replytocom*
Disallow: /search/
Disallow: /scripts/
Disallow: /?s=

User-agent: *
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Allow: /forum/*sitemap
Allow: /forum/*gallery
Disallow: /forum/*topic=*.msg
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/index.php?*unread
Disallow: /forum/*sort
Disallow: /forum/index.php?*sort
Disallow: /forum/*printpage
Allow: /forum/*board=
Disallow: /forum/index.php?*wap
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/index.php?*imode
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/index.php?*new
Disallow: /forum/*.new
Host: mother-and-baby.ru

Sitemap: http://mother-and-baby.ru/sitemap.xml.gz
Sitemap: http://mother-and-baby.ru/sitemap.xml

olgapet

Глядя по результатам, видимо и некоторые другие боты, кроме яндекса и гугла, теперь тоже работают с разрешениями.
Но если честно на данный момент интересна индексация в яндексе, рамблере и гугле. Яху и некоторые другие пока не интересны, с ними поработаем позже. Возможно отдельными блоками.
Я изначально хотел сделать роботс без разрешений, только после нескольких тестов и нормальной работы опубликовал с ними.
Возможно с некоторыми изменениями в форуме можно будет сделать и только на запрете, хотя пока не вижу смысла.
В любом случаи это пока не готовый вариант и идей и планов пока полно, не хватает время.
А выше опубликованный файл был сделан исходя из манов опубликованных ПС, где поддержка данной директивы обозначена.

Mavn

Народ без обид. В первом сообщении данной темы содержится robots.txt который обкатан на многих форумах и проблем с ним никогда не возникало, но почему то у нас появляется очередной "Кулибин" с публикацией своего роботса и просьбой проверьте а все ли правильно.... Плин вам трудно что ли прочитать хотя бы несколько первых страниц темы? весь роботс для форума разобран по кускам и смысла городить огород нету... нет каждый создаст свой роботс в надежде а вдруг у меня лучше будет....... пипец
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Mакс-23

Цитата: Mavn от 29 мая 2014, 21:45:00Народ без обид.

может проще закрыть эту темы с указанием причин? как вариант. Ну и в первом посте Красным по белому, большими буквами дать понять чтоб не городили огород и тратили чужое время...

Лично я, скопировал первый пост об robots, - месяц по наблюдал... - всё норм, ну а потом просто забыл про него вообще!

Серый Лис

Уважаемый Mavn я уже не рад что вообще коснулся с созданием этих роботсов. Подогнал под себя стандартный  роботс разработанный  Yworld_garry  все пашет, проблем нет.
Прошу удалите мои темы  касающиеся роботсов к - чертовой матери!
Так будет лучше. И спокойнее.

digger®

Цитата: Mavn от 29 мая 2014, 21:45:00весь роботс для форума разобран по кускам и смысла городить огород нету... нет каждый создаст свой роботс в надежде а вдруг у меня лучше будет....... пипец
А потом включить ЧПУ или Frendly Urls и весь огород превращается в тыкву :)

Nasona

Использую robot.txt с первой страницы. Все отлично работает в рамблере и яндексе, но в гугле каждый раз проскакивают следующие ссылки на сообщения

digger®

Цитата: Nasona от 10 июня 2014, 17:03:59
Использую robot.txt с первой страницы. Все отлично работает в рамблере и яндексе, но в гугле каждый раз проскакивают следующие ссылки на сообщения
Сцылки невидимки?

Yarik

Я вообще убрал роботс.тхт,начал бот Гугл АдСенс на него матерится.Поставил карту сайта.

Yworld_garry

Цитата: Yarik от 10 июня 2014, 21:22:15Я вообще убрал роботс.тхт,начал бот Гугл АдСенс на него матерится.Поставил карту сайта.
Если прочитать тему эту, либо просто инет, то станет сразу видно, что для адсенса следует добавить блок в robots.txt

User-agent: Mediapartners-Google
ниже все разрешить или что то закрыть отдельно.

А карту сайта ставить следует сразу, опять же все описано тысячу раз)))

Yarik

Цитата: Yworld_garry от 11 июня 2014, 13:16:28Если прочитать тему эту, либо просто инет, то станет сразу видно, что для адсенса следует добавить блок в robots.txtUser-agent: Mediapartners-Googleниже все разрешить или что то закрыть отдельно.
У меня и с картой работает всё отлично.Когда появилась необходимость в индексации и приглашении на форум  поисковиков был установлен роботс и карта сайта.Впоследствии осталась одна карта.

Ставить карту сразу и приглашать ботов на чистый форум такой надобности я не увидел.Когда уже форум был более-менее наполнен,тогда и были приглашены боты.

Yworld_garry

#1088
Я наверно чего то не понял из написанного вами, но файл robots.txt никого никуда не приглашает, он регулирует доступ для ботов и отвечает за то что будет в индексе поисковиков. Убирает мусор и тд и тп.
Карта сайта не делает ничего из этого и никаким образом не поможет в данном вопросе, она для других целей.
А если у вас стоит адсенс, надо было просто добавить в роботс пару строчек и все, выше приводил. Чем удалив роботс, потом кучи мусора в выдаче иметь.


Yarik

Я наверно тоже что-то недопонял.А что подразумевается под словом мусор?

Yworld_garry

Цитата: Yarik от 11 июня 2014, 20:51:30А что подразумевается под словом мусор?
Это когда в индекс поисковиков попадают дубли страниц, технические страницы, всякие сгенерированные для удобства страницы, но являющиеся дублями и тд и тп.
И все это понижает позиции сайта, снижает его авторитет, загоняет под фильтры и куча еще всяких "приятных вещей"

Yarik

Разумно,согласен.Ленивый я,да засяду сейчас пожалуй и ручками поправлю роботс.Спасибо за помощь,поддержка движка у вас хорошая.Не чета phpBB.

Hanny

Добрый день. В первом посте указана необходимость подготовки форума:
Подготавливаем форум к его использованию.
В файле Themes\index.template.php
Убираем

Код: [Выделить]
1.<meta name="robots" content="noindex" />


А лучше заменяем на

Код: [Выделить]
1.<meta name="robots" content="index, follow" />

Но не могу найти указанный файл, в указанной папке он отсутствует, форум 2.0.7. Заранее благодарен.

Yworld_garry

Цитата: Hanny от 15 июня 2014, 03:32:39Добрый день. В первом посте указана необходимость подготовки форума:
Этого делать больше не нужно, было актуально в свое время, точнее не обязательно. Пожалуй днем отредактирую пост первый, а то ниже где то написано...

Hanny

Цитата: Yworld_garry от 15 июня 2014, 03:49:39
Этого делать больше не нужно, было актуально в свое время, точнее не обязательно. Пожалуй днем отредактирую пост первый, а то ниже где то написано...

Спасибо.

AniGoch

Не на столько хорошо знаю англ, что бы адекватно понять столько текста =\
Из статьи понял лишь то, что надо в ручную устанавливать мод и переписывать код.
Верно?

Yworld_garry

Цитата: AniGoch от 17 июня 2014, 12:51:34Верно?
Какой английский или где?
Какой мод ставить?
Какой код переписывать?

Mакс-23

Ребята, может я что-то не до-понимаю... да и особо не разбираюсь в чем-то...

вообщем  Яндекс исключил 2178   страниц.  т.е. то что запрещено в файле robots.txt
robots.txt брал с первого поста... - 2178 это нормально?
на втором скрине (по больше который) показаны ссылки которые робот исключил...

Yworld_garry

Цитата: Mакс-23 от 01 июля 2014, 15:37:592178 это нормально?
Нормально, это дубли и не нужное в индексе.
Не нормально, когда добавили модификацию, которая имеет свои страницы и не добали в роботс разрешения для нее. Допустим галерею.. и тд.
Опять же если все правильно в самом роботсе у вас.

supmener

Посмотрите пожалуйста, должно ли при таком содержимом robots.txt индексироваться содержимое главной страницы и всех других страниц форума и страниц и документов во вложенных папках сайта?

http://vedomo.ru/robots.txt