Десять Сталинских ударов по файлу robots.txt

Автор BIOHAZARD, 05 мая 2009, 07:53:15

« назад - далее »

0 Пользователи и 2 гостей просматривают эту тему.

BIOHAZARD

Десять Сталинских ударов по файлу robots.txt (Ча.Во.)

Данное описание не претендует на полноту изложения, но призвано облегчить понимание основных моментов при создании файлов robots.txt.



  • Для чего нужен файл robots.txt?
    Этот файл содержит в себе инструкции поисковым ботам, как вести себя на вашем сайте. Все инструкции носят рекомендательный характер и боты не обязаны точно следовать им.
    Конкретно вам он нужен, чтобы поисковики не индексировали что попало и в индекс не попадало несколько страниц с разными адресами, но полностью одинаковым содержанием (подробнее...).

  • Что из себя представляет этот файл?
    Это обычный текстовый файл набранный в блокноте или подобной программе. Текст этого файла состоит из одной или нескольких секций с двумя и более инструкциями в каждой секции, секции отделяются друг от друга одной или более пустыми строками.

  • Какие функции/возможности должны присутствовать у моего хостера/в движке моего форума/сайта для работы файла robots.txt?
    Ещё раз повторимся: robots.txt – это обычный текстовый файл. Он не использует никаких специальных расширений хоста/сайта/форума для своей работы. Ему всё равно есть у вас php или нет, какие моды, плугины, виджеты установлены у вас на сайте, robots.txt есть вещь самодостаточная – ему вообще ни до чего нет дела, кроме себя самого.

  • Какие инструкции могут содержаться в этом файле?
    Существует 4 основных инструкции: User-Agent, Allow, Disallow, Sitemap.
    Это не все инструкции, но основные.
    Инструкции группируются в секции, содержащие не менее двух инструкций.

    Первая инструкция обязательная – это User-Agent, каждая секция начинается именно с этой инструкции. Эта инструкция сообщает к какому поисковому боту относятся содержащиеся в данной секции указания. Сама по себе инструкция User-Agent не используется, а только в связке с другими инструкциями.
    Наиболее распространённые боты: Yandex, Googlebot, * (звёздочка обозначает «все боты»).
    Allow (разрешить) – указывает какие страницы можно индексировать на сайте (по умолчанию можно все).
    Disallow (запретить) – указывает какие страницы запрещено индексировать.
    Sitemap (карта сайта) – указывает поисковику где искать карту вашего сайта (если она есть). Формат файла карты сайта должен соответствовать принятому стандарту.

  • А что если адрес страницы попадает сразу под разрешающее и запрещающее правило?
    Разные поисковики ведут себя здесь по разному: Яндекс использует инструкцию, которая была прописана в файле раньше (выше по тексту), а Гугл более подробную (более длинную) инструкцию.

  • Как использовать этот файл?
    Просто записываете свои пожелания к поисковым ботам в виде стандартных инструкций и размещаете файл по адресу http:// ваш_сайт/robots.txt (НЕ!!! http:// ваш_сайт/папка/robots.txt).
    Файл может иметь только такое название и только с маленькой буквы.

  • Как боты узнают о существовании этого файла?
    Любой бот, заходя на любой сайт, первым делом проверяет наличие этого файла в корне, найдя этот файл пытается его проанализировать и применить содержащиеся в нём инструкции. После этого идёт индексировать ваш сайт. И так при каждом заходе каждого бота на ваш сайт.

  • А если я сделаю ошибку в файле robots.txt или если я его случайно удалю, что будет?
    Тогда секция из файла, содержащая ошибку, будет проигнорирована. Остальные секции будут обработаны как обычно. А если удалите, то поисковые боты просто начнут индексировать всё подряд.
  • А можно ли найти ошибки заранее, до того как поисковый бот зайдёт на сайт?
    Можно. Для этого необходимо использовать инструменты предоставляемые Яндексом и Гуглом. И у того и у другого есть инструменты для проверки правильности создания файла robots.txt, для их использования необходима регистрация и подтверждение прав собственности на сайт для которого осуществляется проверка. Зарегистрироваться можно здесь: Яндекс + Гугль.

  • Где ещё можно почитать про файлы robots.txt?
    Можно почитать на Яндексе и на Гугле, а также в википедии.

Некоторые римеры:

разрешить индексировать всё всем
User-Agent: *
Allow: /


разрешить индексировать всё всем (другой вариант)
User-Agent: *
Disallow:


разрешить всё всем, кроме яндекса, яндексу запретить
User-Agent: *
Disallow:

User-Agent: Yandex
Disallow: /


запретить всё всем
User-Agent: *
Disallow: /


запретить всё всем
User-Agent: *
Allow:


запретить всем индексировать всё, кроме находящегося в папке dir
User-Agent: *
Allow: /dir/
Disallow: /


запретить индексировать всё, кроме файлов с расширением .html (символ $ означает конец адреса страницы)
User-Agent: *
Allow: *.html$
Disallow: /


запретить индексировать файлы с расширением .html (символ $ означает конец адреса)
User-Agent: *
Disallow: *.html$


запретить индексировать файлы содержащие html в любой части адреса (ваш_сайт.ru/html/file.php в том числе, * означает любую последовательность символов перед html или их отсутствие)
User-Agent: *
Disallow: *html


запретить индексировать файлы содержащие одновременно html и sometext в любой части адреса (ваш_сайт.ru/html/sometext.php в том числе, но не ваш_сайт.ru/ sometext.html, * означает любую последовательность символов в адресе страницы)
User-Agent: *
Disallow: *html*sometext


разрешить всё и сказать где искать карту сайта
User-Agent: *
Disallow:
Sitemap: http://ваш_сайт/путь_к_файлу/файл_карты_сайта.xml


© BIOHAZARD



вот как–то так пока вышло
это конечно не полное изложение проблемы (далеко не полное), но я надеюсь, что это послужит для вас отправной точкой для изучения синтаксиса файла robots.txt
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Yworld_garry

Спасибо большое за начало написания более вменяемых и понятных правил использования роботс. Спасибо что обратил внимание на мою просьбу и очень качественно подошёл к этому вопросу.
Всё что касаемо прогона отписал в личку, жду инфу.
Если у кого то ещё есть желание и возможность дополнить и тд., всё что написано тут
http://www.simplemachines.ru/index.php/topic,5089.msg43948.html#msg43948  , в силе всем написавшим или внёсшим вклад(адекватный).

PS
В этой теме только правила, советы и ман. Обсуждения любого рода в теме про robots.

alex79

Спасибо за статью! а как быть если страницы, закрытые от индексации с помощью robots.txt упрямо попадают в дополнительные результаты гугла? ???

BIOHAZARD

подождать
гугл их не за один день обрабатывает, потом всё выкинет - приверено
(если всё действительно правильно написано)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

online-gambler

Цитата: BIOHAZARD от 25 августа 2009, 18:48:55
подождать
гугл их не за один день обрабатывает, потом всё выкинет - приверено
(если всё действительно правильно написано)

Жду уже почти год, а страницы, forum/index.php?topic=22.msg1906, forum/index.php?topic=65.0;prev_nex... и forum/index.php?action=printpage;to... так и не пропадают из индекса goole, хотя яндекс очень качественно индексирует. Что делаю не так? Роботс на эти файлы имеет такие строки:

Disallow: /forum/*.msg
Disallow: /forum/*prev_next
Disallow: /forum/*action

Yworld_garry

В панели веб мастера гугла можно теперь добавить исключения всякие. Добавьте и через некоторое время должны пропасть.
Проверьте там же свой роботс на предмет этих ссылок.

online-gambler

Проверил и ничего удивительного не произошло. Вставлял адреса из дополнительного индекса, типа, http://мой_сайт/forum/index.php?topic=237.msg2680 и http://мой_сайт/forum/index.php?action=profile;u=1134? в инструмент проверки robots.txt, на что получил результаты: Заблокировано по строке 58: Disallow: /forum/*action и Заблокировано по строке 52: Disallow: /forum/*.msg, а страницы как были в индексе (дополнительном), так и остались. У всех так или только у меня? Забыл еще добавить, что у меня один роботс на сайт и форум, сайт на Drupal, никаких подозрительных надписей не обнаружил.

Yworld_garry

Он и должен быть один.
Скиньте урл в личку.
И какое время прошло от добавления роботс?

Mavn

обсуждение самого файла robots.txt в данной теме и все сообщения которые вообще никак не относятся к самому мануалу по файлу будут перенесены туда
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

fatal1ty

Привет!
Тут написано что нельзя делать так:
ваш_сайт.ру/папка/роботс.тхт
А если форум лежит в папке форум? то что делать? в корень кидать?

Yworld_garry

Файл robots.txt один для свего сайта. Находится должен в корне.

fatal1ty

Цитата: Yworld_garry от 03 октября 2011, 17:34:03
Файл robots.txt один для свего сайта. Находится должен в корне.
Спасибо!

Juanito

Вот такие ошибки выдаёт гугл и яндекс вебмастер.

Bugo

Так убрать надо пробел или что там у вас, перед User-agent, а то пауки его не видят.

Juanito

Цитата: Bugo от 12 июля 2018, 16:24:56Так убрать надо пробел или что там у вас, перед User-agent, а то пауки его не видят.
Точно, какая-то красная точка прицепилась. Я то думал это яндекс так ошибку показывает.