Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 6 гостей просматривают эту тему.

Фисташка

Приходит бот от яндекса и читает файл:

User-agent: Yandex
Disallow: /*mgallery*media*preview <- запрещены превью
Disallow: /*mgallery*media*thumb <- запрещены маленькие изображения
Allow: /*mgallery*item  <- разрешены страницы изображений
Allow: /*mgallery*media  <- разрешены сами изображения
Disallow: /*mgallery  <- всё остальное запрещено

Что не понятно?

А, вообще, не мучайтесь:
Для того чтобы картинки с сайта попали в поиск Яндекс.Картинок, необходимо, чтобы были проиндексированы страницы сайта. Из проиндексированных веб-страниц извлекается информация об изображениях.

В поиск по картинкам попадают только изображения, разрешенные в robots.txt и расположенные на страницах, разрешенных к индексированию в robots.txt.

Как и при поиске страниц в интернете, в поиске изображений важно наличие текстов, описывающих картинку. Лишь анализируя тексты, поисковая система может предположить, что изображено на картинке. Именно по текстам, которые относятся к картинкам, поиск находит изображения по запросам пользователей. Поэтому картинки, у которых отсутствуют содержательные описания, не попадают в поиск, т.к. не могут быть найдены по запросам.


Мы индексируем только картинки в стандартных графических форматах (JPEG, GIF и PNG). Не индексируются фоновые изображения и картинки, раскрывающиеся при помощи скрипта.

Yworld_garry

Посмотрите тут
http://help.yandex.ru/webmaster/?id=996567#1041216

Нужно экспериментировать с местоположением строки(ниже), но проверить в гугле и яндексе. Можно поклеить все, правила по выше приведенной ссылке для яндекса.
Disallow: /*media*fw

Время у меня нет сейчас что то выдумывать и вникать, проверьте для яндекса, в гугле возможно будет ок по порядку. если так, то сделайте два блока.
User-agent: *
Disallow: /*fw
Allow: /*media
Disallow: /*action

mdm

Yworld_garry, все получилось, нужно было всего лишь расположить правила в правильно порядке.

Serifa

Странное дело, Яндекс выложил в поиск страницы из раздела, куда ему доступ закрыт в принципе. Сам признался, на странице Яндекс. Вебмастер. У меня пауки включены в группу, для которой закрыты определенные разделы форума, и другие разделы они в самом деле не смотрят, а вот раздел с объявлениями других форумов все читают. Но он тоже запрещен.
При этом Яндекс запрещает страницы, которые вполне себе адекватные. И показывает мне при анализе "роботса" что-то странное, я не разберу, чего ему не нравится.
   
Строка 5-30   
User-agent: *
Allow: /*sitemap
...

Clean-param: PHPSESSID /index.php

Ладно, я до этого вообще на этот "Вебмастер" не заглядывала, хоть немного разберусь, что там и как.
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Abrikos

Ребят всю ветку читать не осилил, поиск результатов не дал, у меня форум на поддомене, т.е. forum.site.net у самого сайта есть robot.txt, также нужен и для форума, как мне быть ? Надо изменить robot.txt тот что в первом посте этой темы для поддомена ? Если да, то какого вида должны быть записи, либо изменить robot.txt основного домена для форума на поддомене, если да то опять же какого вида должны быть записи, спасибо за внимание !

Mavn

вы не осилили прочитать мы не осилим в сотый раз писать одно и тоже
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Bugo

Цитата: Abrikos от 05 июля 2011, 23:48:45
Ребят всю ветку читать не осилил, поиск результатов не дал, у меня форум на поддомене, т.е. forum.site.net у самого сайта есть robot.txt, также нужен и для форума, как мне быть ? Надо изменить robot.txt тот что в первом посте этой темы для поддомена ? Если да, то какого вида должны быть записи, либо изменить robot.txt основного домена для форума на поддомене, если да то опять же какого вида должны быть записи, спасибо за внимание !
Если пользуетесь SMF 2.0, попробуйте мод Optimus Brave.

Istoric

Цитата: Bugo от 07 июля 2011, 17:40:53
Если пользуетесь SMF 2.0, попробуйте мод Optimus Brave.
Установил на RC5 в разделе админики - появилось Поисковая оптимизация но в ней написано "Установленных модов, имеющих настройки, в данном разделе нет." Что сделал не так? Все встало без ошибок...

Bugo

Мод совместим с финальной версией 2.0, но не с RC.

Istoric

Цитата: Bugo от 09 июля 2011, 15:32:42
Мод совместим с финальной версией 2.0, но не с RC.
а для RC5 мод будет? а то как то боязно обновлятся до финальной, боюсь моды перстанут работать

Bugo

Для RC5 был, но теперь переписан, для полного использования хуков интеграции.

Abrikos

Bugo спасибо, поставил мод, все отлично работает ! O0

kak2z

Ребят, подскажите сколько лучше всего для быстрой индексации ставить Crawl-delay. Прочитал кучу обзоров - одни пишут 2, другие 150... слишком уж большой разбег цифр)
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

BIOHAZARD

лучше - никакой

будут грузить форум, тогда и будете репу чесать
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

kak2z

Спасибо)) Ваше мнение я уважаю, да и сам так думал сделать)
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

SJay

Давно использую роботс из этой темы с первого поста, в нем для индексации закрыта мобильная версия сайта. В таком случае когда приходит мобильный бот яндекса или гугла то получает отказ индексации. Не нужно в таком случае открыть для этих ботов  индексацию этого раздела или поправьте если я не прав.

BIOHAZARD

да, можете для мобильного бота создать отдельный блок в robots.txt
после этого проверьте корректность robots.txt для обоих ботов (мобильного и обычного) в панели вэб-мастера
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

SJay

Ок, добавил:

User-agent: Googlebot-Mobile
Allow: /*wap

User-agent: Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots)
Allow: /*wap

Bugo


kak2z

У меня такой роботс.тхт

User-agent: *
Allow: /*sitemap
Allow: /*media
Allow: /*forum
Allow: /*arcade
Allow: /*rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*go.php
Host: kak2z.ru

User-agent: Slurp
Crawl-delay: 100

User-agent: Mediapartners-Google
Allow: /*

User-agent: Googlebot-Mobile
User-agent: YandexImageResizer
Allow: /*wap
Allow: /*imode
Disallow: /


если что то видите не правильное - подскажите)
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Bugo

Вместо строчек

User-agent: Mediapartners-Google
Allow: /*

наверное лучше так:

User-agent: Mediapartners-Google
Disallow:

remingtone

господа, такой вопрос. в роботс запрещены профили пользователей. при этом ники пользователей будут учитываться в ключевых словах гугл или нет?

Макар

Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny


SJay

Добрый день. В последнее время я стал наблюдать в webmastere yandex резкий рост исключенный страниц(график можно посмотреть во вложениях). У меня стоит роботс от Yworld_garry. Он, собственно, и блокирует страницы. В свою очередь, страницы в поиске планомерно растут, т.е. все нормально. Посмотрел сами исключенные страницы, там все вида
/index.php?topic=1480.0;prev_next=prev
/index.php?topic=1481.0;prev_next=prev
/index.php?topic=1482.0;prev_next=prev
/index.php?topic=1486.0;prev_next=prev
/index.php?topic=1488.0;prev_next=prev
/index.php?topic=1495.0;prev_next=prev
/index.php?topic=1499.0;prev_next=prev
и
/index.php?topic=2256.msg19407
/index.php?topic=2256.msg19409
/index.php?topic=2256.msg19410
и т.п.
Получается что все правильно, но смущает то, что их количество так резко увеличивается. Активность на форуме не большая 60-120 сообщений в сутки, и темы 15-20 за неделю. Поэтому не из-за роста страниц это. Хотелось бы узнать нормально это или нет?

kak2z

Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

SJay

kak2z, роботс у меня такой же. И ,дейсвительно, все так и должно быть. Но не понятно откуда за пару недель появилось 1000 дублей.

kak2z

Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

remingtone

Цитата: Bugo от 08 сентября 2011, 19:05:28
Вместо строчек

User-agent: Mediapartners-Google
Allow: /*

наверное лучше так:

User-agent: Mediapartners-Google
Disallow:


чем лучше, Буго? у Вас на сайте я подобных строк не увидел.

Bugo

Лучше тем, что директиву Disallow понимают все пауки, в отличие от Allow.
Строчка "Disallow:" равнозначна "Allow: /*"

Я не пользуюсь рекламой от Google.

Макар

Цитата: okk от 23 сентября 2011, 15:07:10
чем лучше, Буго? у Вас на сайте я подобных строк не увидел.

тем что если поставишь адсенс, то будет крутиться соцреклама пока не разрешишь медиа роботу индексировать все
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

remingtone

Цитата: Макар от 23 сентября 2011, 16:10:53
тем что если поставишь адсенс, то будет крутиться соцреклама пока не разрешишь медиа роботу индексировать все
где будет крутиться? :o в данный момент она не используется, но может быть когда-то... а на тот момент уже будет все проиндексировано ;) или не правильно мыслю?

Макар

уууу.... везде где выводится код рекламы
если страница приндексирована рекламным ботом, то на ней показываюся платные объявления, если нет, то соц объявления за клики по которым ничего не платят
потому и надо боту crazy гоши давать отдельную команду фас wallbash

User-agent: Mediapartners-Google
Allow: /*index.php?action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

remingtone

Цитата: Макар от 23 сентября 2011, 16:43:59
потому и надо боту crazy гоши давать отдельную команду фас wallbash

User-agent: Mediapartners-Google
Allow: /*index.php?action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen

понял! а в основной индекс это не полезет? в смысле, action, msg и т.п. токо для рекламы?

Макар

не не полезет оно ж запрещено для основного индекса
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Xansen

а если у меня просто написано:
User-agent: Mediapartners-Google
Disallow:

разве так не лучше?

Yworld_garry

Цитата: Xansen от 25 сентября 2011, 12:51:42
а если у меня просто написано:
User-agent: Mediapartners-Google
Disallow:

разве так не лучше?
Можно и так, но смысла немного. Зачем вам лишняя нагрузка при скане ботом всякой хрени, где и рекламы не будет никогда?

artzor

По какой причине при строке:

Disallow: /forum/*action

При  очередном апе Яши вылезли все профили ?

Проверил в панели вебмастера ссылку ввида - http://site.ru/forum/index.php?action=profile;u=664 - "Разрешено" . . .

robots.txt из первого сообщения.

Bugo


Yworld_garry

Очень отдаленно напоминает то что в первом посте.
Я бы вообще его в панелях проверил, возможны конфликты разрешений...
Не совсем логично сконфигурировано, на взгляд.

remingtone

Цитата: artzor от 26 сентября 2011, 06:13:37
По какой причине при строке:

Disallow: /forum/*action

При  очередном апе Яши вылезли все профили ?

Проверил в панели вебмастера ссылку ввида - http://site.ru/forum/index.php?action=profile;u=664 - "Разрешено" . . .

robots.txt из первого сообщения.

смотрите отсюда и до конца

artzor

#591
Цитата: Bugo от 26 сентября 2011, 08:52:26
У вас в robots вообще нет такой строки.

Я сменил его утром на тот который был ранее, до выяснения обстоятельств :) (вариант, кстати, так же не очень)

Цитата: okk от 26 сентября 2011, 13:08:46
смотрите отсюда и до конца

Благодарю, почитаю ...

Поправил, исходя из советов, но, все равно ссылки типа:

http://dbprogs.ru/forum/index.php?action=profile;u=2
http://dbprogs.ru/forum/index.php?action=markasread;sa=all;c2f9ca018b=865f6f83a330c6c3d2ceb4730ea3bcd1

разрешены ...

Может я где-то туплю, не знаю ... :(

Yworld_garry

Цитата: artzor от 26 сентября 2011, 22:41:26
Может я где-то туплю, не знаю ... :(

А зачем вам строчка в robots
Allow: /*forum
Она отменяет все ниже перечисленное  :facepalm:
По этому все и влетает в индекс.

artzor

Опа, проглядел ... Спасибо огромное, сейчас все ок.

Xansen

стоит smf_gallery.
там есть возможность просмотреть самые комментируемые фото, где они разбиваются на страницы и с-но урлы вида ***&start=10 и т.п.

сама галера у меня открыта в роботс. Ничего страшного с форумом не случится если я *start в disallow закину и стоит ли вообще?

Yworld_garry

С форумом точно ничего не случится. Закидывайте все что считаете не должно быть в индексе. Только проверяйте в панелях ПС.
И конечно выкладывайте сюда пример вашего куска дополнения в файле robots.txt, возможно будет полезно другим. Да и ошибки, если они есть поправят.

Xansen

Собственно у меня всё стандартно:

User-agent: *
Disallow: /*start #закрываем в SMF Gallery Pro 1.3.14 страницы вида ?action=gallery;sa=listall;type=comments;orderby=desc;start=80
Allow: /*sitemap #открываем sitemap
Allow: /*gallery # открываем SMF Gallery Pro 1.3.14
Allow: /*downloads # открываем модуль downloads
Allow: /*rss # открываем rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*go.php
Host: forum.b-m-w.ru

User-agent: Slurp
Crawl-delay: 100

User-agent: Mediapartners-Google
Disallow:

User-agent: Googlebot-Mobile
User-agent: YandexImageResizer
Allow: /*wap
Allow: /*imode
Disallow: /

millioner85

Господа, а что никто не закрывает от индексации сессии:

Disallow: /*PHPSESSID

Yworld_garry

Ви
Цитата: millioner85 от 07 октября 2011, 14:01:13
Господа, а что никто не закрывает от индексации сессии:

Disallow: /*PHPSESSID

Видимо не смотрят на первый пост.

millioner85

Прошу проверить на корректность данный роботс:
Из модов стоит Sitemap.

User-agent: Googlebot-Mobile
User-agent: YandexImageResizer
Allow: /*wap
Allow: /*imode
Disallow: /

User-agent: Mediapartners-Google
Allow: /*action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen

User-agent: *
Allow: /*sitemap
Allow: /*action=forum
Allow: /*rss
Allow: /$
Allow: /*board*.0$
Allow: /*topic*.0$
Disallow: /Sources/
Disallow: /cgi-bin/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /cache/
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Themes/
Disallow: /*action
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php$
Disallow: /*theme
Disallow: /*start
Disallow: /*;
Clean-param: PHPSESSID/index.php

User-agent: slurp
User-agent: msnbot
Crawl-delay: 120

User-agent: Twiceler
User-agent: Baiduspider
User-agent: W3C-checklink
Disallow: /


Если есть комментарии - готов выслушать. Особенно интересует корректность использования параметра Clean-param!