Десять Сталинских ударов по файлу robots.txt

BIOHAZARD · 05 мая 2009, 07:53:15

Десять Сталинских ударов по файлу robots.txt (Ча.Во.)

Данное описание не претендует на полноту изложения, но призвано облегчить понимание основных моментов при создании файлов robots.txt.

Для чего нужен файл robots.txt?
Этот файл содержит в себе инструкции поисковым ботам, как вести себя на вашем сайте. Все инструкции носят рекомендательный характер и боты не обязаны точно следовать им.
Конкретно вам он нужен, чтобы поисковики не индексировали что попало и в индекс не попадало несколько страниц с разными адресами, но полностью одинаковым содержанием (подробнее...).
Что из себя представляет этот файл?
Это обычный текстовый файл набранный в блокноте или подобной программе. Текст этого файла состоит из одной или нескольких секций с двумя и более инструкциями в каждой секции, секции отделяются друг от друга одной или более пустыми строками.
Какие функции/возможности должны присутствовать у моего хостера/в движке моего форума/сайта для работы файла robots.txt?
Ещё раз повторимся: robots.txt – это обычный текстовый файл. Он не использует никаких специальных расширений хоста/сайта/форума для своей работы. Ему всё равно есть у вас php или нет, какие моды, плугины, виджеты установлены у вас на сайте, robots.txt есть вещь самодостаточная – ему вообще ни до чего нет дела, кроме себя самого.
Какие инструкции могут содержаться в этом файле?
Существует 4 основных инструкции: User-Agent, Allow, Disallow, Sitemap.
Это не все инструкции, но основные.
Инструкции группируются в секции, содержащие не менее двух инструкций.

Первая инструкция обязательная – это User-Agent, каждая секция начинается именно с этой инструкции. Эта инструкция сообщает к какому поисковому боту относятся содержащиеся в данной секции указания. Сама по себе инструкция User-Agent не используется, а только в связке с другими инструкциями.
Наиболее распространённые боты: Yandex, Googlebot, * (звёздочка обозначает «все боты»).
Allow (разрешить) – указывает какие страницы можно индексировать на сайте (по умолчанию можно все).
Disallow (запретить) – указывает какие страницы запрещено индексировать.
Sitemap (карта сайта) – указывает поисковику где искать карту вашего сайта (если она есть). Формат файла карты сайта должен соответствовать принятому стандарту.
А что если адрес страницы попадает сразу под разрешающее и запрещающее правило?
Разные поисковики ведут себя здесь по разному: Яндекс использует инструкцию, которая была прописана в файле раньше (выше по тексту), а Гугл более подробную (более длинную) инструкцию.
Как использовать этот файл?
Просто записываете свои пожелания к поисковым ботам в виде стандартных инструкций и размещаете файл по адресу http:// ваш_сайт/robots.txt (НЕ!!! http:// ваш_сайт/папка/robots.txt).
Файл может иметь только такое название и только с маленькой буквы.
Как боты узнают о существовании этого файла?
Любой бот, заходя на любой сайт, первым делом проверяет наличие этого файла в корне, найдя этот файл пытается его проанализировать и применить содержащиеся в нём инструкции. После этого идёт индексировать ваш сайт. И так при каждом заходе каждого бота на ваш сайт.
А если я сделаю ошибку в файле robots.txt или если я его случайно удалю, что будет?
Тогда секция из файла, содержащая ошибку, будет проигнорирована. Остальные секции будут обработаны как обычно. А если удалите, то поисковые боты просто начнут индексировать всё подряд.
А можно ли найти ошибки заранее, до того как поисковый бот зайдёт на сайт?
Можно. Для этого необходимо использовать инструменты предоставляемые Яндексом и Гуглом. И у того и у другого есть инструменты для проверки правильности создания файла robots.txt, для их использования необходима регистрация и подтверждение прав собственности на сайт для которого осуществляется проверка. Зарегистрироваться можно здесь: Яндекс + Гугль.
Где ещё можно почитать про файлы robots.txt?
Можно почитать на Яндексе и на Гугле, а также в википедии.

Некоторые римеры:

разрешить индексировать всё всем

Код Выделить

User-Agent: *
Allow: /

разрешить индексировать всё всем (другой вариант)

Код Выделить

User-Agent: *
Disallow:

разрешить всё всем, кроме яндекса, яндексу запретить

Код Выделить

User-Agent: *
Disallow: 

User-Agent: Yandex
Disallow: /

запретить всё всем

Код Выделить

User-Agent: *
Disallow: /

запретить всё всем

Код Выделить

User-Agent: *
Allow:

запретить всем индексировать всё, кроме находящегося в папке dir

Код Выделить

User-Agent: *
Allow: /dir/
Disallow: /

запретить индексировать всё, кроме файлов с расширением .html (символ $ означает конец адреса страницы)

Код Выделить

User-Agent: *
Allow: *.html$
Disallow: /

запретить индексировать файлы с расширением .html (символ $ означает конец адреса)

Код Выделить

User-Agent: *
Disallow: *.html$

запретить индексировать файлы содержащие html в любой части адреса (ваш_сайт.ru/html/file.php в том числе, * означает любую последовательность символов перед html или их отсутствие)

Код Выделить

User-Agent: *
Disallow: *html

запретить индексировать файлы содержащие одновременно html и sometext в любой части адреса (ваш_сайт.ru/html/sometext.php в том числе, но не ваш_сайт.ru/ sometext.html, * означает любую последовательность символов в адресе страницы)

Код Выделить

User-Agent: *
Disallow: *html*sometext

разрешить всё и сказать где искать карту сайта

Код Выделить

User-Agent: *
Disallow:
Sitemap: http://ваш_сайт/путь_к_файлу/файл_карты_сайта.xml

© BIOHAZARD

вот как–то так пока вышло
это конечно не полное изложение проблемы (далеко не полное), но я надеюсь, что это послужит для вас отправной точкой для изучения синтаксиса файла robots.txt

Yworld_garry · 05 мая 2009, 21:02:41

Спасибо большое за начало написания более вменяемых и понятных правил использования роботс. Спасибо что обратил внимание на мою просьбу и очень качественно подошёл к этому вопросу.
Всё что касаемо прогона отписал в личку, жду инфу.
Если у кого то ещё есть желание и возможность дополнить и тд., всё что написано тут
http://www.simplemachines.ru/index.php/topic,5089.msg43948.html#msg43948 , в силе всем написавшим или внёсшим вклад(адекватный).

PS
В этой теме только правила, советы и ман. Обсуждения любого рода в теме про robots.

alex79 · 25 августа 2009, 14:33:32

Спасибо за статью! а как быть если страницы, закрытые от индексации с помощью robots.txt упрямо попадают в дополнительные результаты гугла?

BIOHAZARD · 25 августа 2009, 18:48:55

подождать
гугл их не за один день обрабатывает, потом всё выкинет - приверено
(если всё действительно правильно написано)

online-gambler · 14 ноября 2009, 13:33:20

Цитата: BIOHAZARD от 25 августа 2009, 18:48:55
подождать
гугл их не за один день обрабатывает, потом всё выкинет - приверено
(если всё действительно правильно написано)

Жду уже почти год, а страницы, forum/index.php?topic=22.msg1906, forum/index.php?topic=65.0;prev_nex... и forum/index.php?action=printpage;to... так и не пропадают из индекса goole, хотя яндекс очень качественно индексирует. Что делаю не так? Роботс на эти файлы имеет такие строки:

Disallow: /forum/*.msg
Disallow: /forum/*prev_next
Disallow: /forum/*action

Yworld_garry · 14 ноября 2009, 15:18:39

В панели веб мастера гугла можно теперь добавить исключения всякие. Добавьте и через некоторое время должны пропасть.
Проверьте там же свой роботс на предмет этих ссылок.

online-gambler · 15 ноября 2009, 09:23:08

Проверил и ничего удивительного не произошло. Вставлял адреса из дополнительного индекса, типа, http://мой_сайт/forum/index.php?topic=237.msg2680 и http://мой_сайт/forum/index.php?action=profile;u=1134? в инструмент проверки robots.txt, на что получил результаты: Заблокировано по строке 58: Disallow: /forum/*action и Заблокировано по строке 52: Disallow: /forum/*.msg, а страницы как были в индексе (дополнительном), так и остались. У всех так или только у меня? Забыл еще добавить, что у меня один роботс на сайт и форум, сайт на Drupal, никаких подозрительных надписей не обнаружил.

Yworld_garry · 15 ноября 2009, 11:31:14

Он и должен быть один.
Скиньте урл в личку.
И какое время прошло от добавления роботс?

Mavn · 15 ноября 2009, 11:37:29

обсуждение самого файла robots.txt в данной теме и все сообщения которые вообще никак не относятся к самому мануалу по файлу будут перенесены туда

fatal1ty · 03 октября 2011, 17:25:01

Привет!
Тут написано что нельзя делать так:
ваш_сайт.ру/папка/роботс.тхт
А если форум лежит в папке форум? то что делать? в корень кидать?

Yworld_garry · 03 октября 2011, 17:34:03

Файл robots.txt один для свего сайта. Находится должен в корне.

fatal1ty · 03 октября 2011, 17:46:17

Цитата: Yworld_garry от 03 октября 2011, 17:34:03
Файл robots.txt один для свего сайта. Находится должен в корне.

Спасибо!

Juanito · 11 июля 2018, 16:09:45

Вот такие ошибки выдаёт гугл и яндекс вебмастер.

Bugo · 12 июля 2018, 16:24:56

Так убрать надо пробел или что там у вас, перед User-agent, а то пауки его не видят.

Juanito · 12 июля 2018, 22:47:57

Цитата: Bugo от 12 июля 2018, 16:24:56Так убрать надо пробел или что там у вас, перед User-agent, а то пауки его не видят.

Точно, какая-то красная точка прицепилась. Я то думал это яндекс так ошибку показывает.