Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 4 гостей просматривают эту тему.

forum-adminov

Добрый день.
С этим движком форума только начинаю работать.
Я так понял для начала мне будет достаточно скачать файл robots.txt из первого сообщения этой темы?

atfosan

Цитата: forum-adminov от 01 июля 2010, 16:46:50
Добрый день.
С этим движком форума только начинаю работать.
Я так понял для начала мне будет достаточно скачать файл robots.txt из первого сообщения этой темы?

Да.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Макар

И еще сделать некоторые изменения в коде. Все описано в первом топике.
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

deadpower


BIOHAZARD

Цитата: deadpower от 15 июля 2010, 14:49:06
Allow: /forum/*forum

Что разрешает эта директива?
доступ к главной (начальной) странице форума
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

deadpower

BIOHAZARD, спасибо.

Форум вывалился из Яндекса  tickedoff  wallbash может эта директива поможет, отпишусь после апа...
Зато Гуглю оч. нравится карта сайта и новый роботс (выдача чистая), для Яши буду отдельно откатываться на свой прежний вариант..

johnvv

Ничего не понимаю - роботс вроде исключает всякие profile, printpage и так далее, а в гугле в индекс стабильно выводятся. Если смотрю в вебмастере гугля ссылки которые попали в индекс так гугль говорит типа "Заблокировано по строке 19: Disallow: /forum/*profile", но тем не менее в индекс выводит. Я прям в легком замешательстве. Что я не так сделал? http://www.__syromonoed.org Спасибо!

digger®

Цитата: johnvv от 24 июля 2010, 10:02:18
Ничего не понимаю - роботс вроде исключает всякие profile, printpage и так далее, а в гугле в индекс стабильно выводятся. Если смотрю в вебмастере гугля ссылки которые попали в индекс так гугль говорит типа "Заблокировано по строке 19: Disallow: /forum/*profile", но тем не менее в индекс выводит. Я прям в легком замешательстве. Что я не так сделал? http://www.__syromonoed.org Спасибо!

Почему бы не сделать так?
Disallow: /forum/*action

johnvv

Цитата: digger от 24 июля 2010, 10:30:42
Почему бы не сделать так?
Disallow: /forum/*action
То есть если я заменю кучу своих указаний типа
Disallow: /forum/*login
Disallow: /forum/*help
Disallow: /forum/*profile
на Disallow: /forum/*action то страницы типа
http://www.__/forum/index.php?action=profile;u=132 перестанут в индекс гугля попадать? Гуглу есть разница как я запрещаю индексирование этой страницы через Disallow: /forum/*action или через Disallow: /forum/*profile? По идее и так и так должен запретить, но тем не менее в индекс выводит. Такое ощущение что гуглю частично пофиг на мой роботс.

digger®

Цитата: johnvv от 24 июля 2010, 13:09:06
То есть если я заменю кучу своих указаний типа
Disallow: /forum/*login
Disallow: /forum/*help
Disallow: /forum/*profile
на Disallow: /forum/*action то страницы типа
http://www.__/forum/index.php?action=profile;u=132 перестанут в индекс гугля попадать?
Просто файл станет меньше и удобнее.
Может гугл успел наиндексировать пока robots.txt еще не было?

johnvv

Цитата: digger от 24 июля 2010, 13:12:35
Просто файл станет меньше и удобнее.
Может гугл успел наиндексировать пока robots.txt еще не было?
Нет, роботс у меня давно стоит, почти с того же дня что и форум, а новые страницы с profile и printpage и тд так и продолжают сыпаться в гугл. Мистика какая-то!

BIOHAZARD

ну так проверьте в панели у гугля, что он там скажет
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

johnvv

Цитата: BIOHAZARD от 24 июля 2010, 13:22:06
ну так проверьте в панели у гугля, что он там скажет
Так месяц уже проверяю! - при проверке проблемных страниц пишет типа "Заблокировано по строке 19: Disallow: /forum/*profile", но тем не менее в индекс все выводит и выводит. 

johnvv

Может быть я не правильно смотрю? Делаю запрос в гугле site:_syromonoed.org Кстати, если сделать запрос site:simplemachines.ru то также выводятся вроде бы запрещенные страницы. Например:
www.simplemachines.ru/Themes/default
http://www.simplemachines.ru/index.php?action=stats
www.simplemachines.ru/index.php?action=profile;u=11597 и т.д.




Yworld_garry

Цитата: johnvv от 24 июля 2010, 13:50:54
Может быть я не правильно смотрю? Делаю запрос в гугле  Кстати, если сделать запрос site:simplemachines.ru то также выводятся вроде бы запрещенные страницы. Например:site:_syromonoed.org
www.simplemachines.ru/Themes/default
http://www.simplemachines.ru/index.php?action=stats
www.simplemachines.ru/index.php?action=profile;u=11597 и т.д.
В основной выдаче не должно быть мусора, попадает при различных обновлениях, переездах и тд. Из гугла не так быстро удаляется.
site:simplemachines.ru - великолепный индекс

А на вашем сайте редирект стоит на папку форума. Роботс стоит в корне, но боты перенаправляются на папку. Думаю тут "собака порылась"

johnvv

Цитата: Yworld_garry от 24 июля 2010, 15:35:40
В основной выдаче не должно быть мусора, попадает при различных обновлениях, переездах и тд. Из гугла не так быстро удаляется.
site:simplemachines.ru - великолепный индекс

А на вашем сайте редирект стоит на папку форума. Роботс стоит в корне, но боты перенаправляются на папку. Думаю тут "собака порылась"
Спасибо! Кинул роботс и в папку /forum, а также задублировал в роботсе строки
Disallow: /forum/*profile
Disallow: /*profile
Посмотрим как будет индексироваться. Если не поможет - уберу и редирект.

kak2z

На форуме стоит АеваМетиа, СиплПортал и Аркада.
Так же установлен мод Sitemap.
Форум стоит в корне на домене. Никакие "дружественные" урлы не настроены и не включены. 
Правильный ли я составил robots.txt? 

User-agent: *

Allow: /*action=sitemap
Allow: /*action=media
Allow: /*action=forum
Allow: /*action=arcade
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action

User-agent: Slurp
Crawl-delay: 100

Как сделать так что бы картинки которые выкладывают на форуме (и в галереи) тоже попадали в индекс?
Если что подскажите что подправить. Спасибо.
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Yworld_garry

Вроде всё ок, единственно не должно быть пропуска строки после User-agent: *. Всё должно идти одним блоком.

kak2z

Спасибо но есть еще вопрос, в СимплПортале на первой странице у меня есть новостная лента, так там ссылки на темы в форуме выглядят так http://kak2z.ru/index.php?topic=222.0 Их как то надо прописывать для того что бы ПС их индексировала? Ведь то что лежит на первой странице более релевантно и для индексации и для выдачи, насколько я знаю.
Спасибо.
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Yworld_garry

Ссылка уже открыта с тем файлом что у вас, но по любому проверяйте в панелях яндекса и гугла.

kak2z

Спасибо за подсказки, установил)) Но может совпадение - яндекс что то совсем не заходит на сайт)) Хотя проверял УРЛы через Яндекс.Вебмастер - говорят что открыто для индексирования.  За сегодня 0 просмотров роботами Яндекса, вчера было около 500 просмотров) Ну поживем увидим)
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Макар

Странный ты. Этот файл не мед что бы на него пс слетались .
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

kak2z

Да я наоборот, подозрительно что Яндекс перестал заходить)))
Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

Bugo

Цитата: kak2z от 27 июля 2010, 10:43:43
За сегодня 0 просмотров роботами Яндекса, вчера было около 500 просмотров) Ну поживем увидим)
Все имеют право на выходной :)

johnvv

Цитата: Yworld_garry от 24 июля 2010, 15:35:40
В основной выдаче не должно быть мусора, попадает при различных обновлениях, переездах и тд. Из гугла не так быстро удаляется.
site:simplemachines.ru - великолепный индекс
Боюсь показаться занудным, но очень интересно разобраться. А то парюсь с роботс, а ничего не меняется. Индекс то хороший у вашего форума, первые 40 страниц выдачи, а вот в районе с 40й по 80ю страницу по запросу site:simplemachines.ru очень много мусора. И думаю дело здесь не в переездах и обновлениях так как много ссылок от разных дат. Ссылки с index.php?action=profile есть как от старых пользователей так и от совсем новых.

Yworld_garry

Файл роботс это не конкретный запрет индексации, а это указание для ботов. Собственно как и различные теги.
Но то что указано в этом файле не участвует в основной выдаче и не забивает ролевентные страницы.
Не писсимизируются нужные страницы за дубли и тд.

Есть несколько различий в методах ведущих ПС. Мы данным файлом уравняли индексацию и привили её к удобоваримой форме.
Собственно гугл ест весь сайт с потрахами и уже потом решает что будет в основной выдаче, что понизить, а что вообще никогда не показывать. По этому вы и видите все что наиндексено. Но это не значит что всё в выдаче или из за этого будут санкции.

Этим запрсом вы смотрите весь индекс. Поверьте есть сайты где по этому запросу больше миллиона страниц А в выдыче 20-30 тысяч и трафик не детский.

gautama

Цитата: kak2z от 27 июля 2010, 11:10:37
Да я наоборот, подозрительно что Яндекс перестал заходить)))
Да, у Яндекса, в последнюю неделю по многим сервисам какие-то неполадки. Вот, сейчас, почта глючит

Sonyk

Здравствуйте, простите я новичок в SMF и собственно в robots.txt, я хочу создать форум вида forum.site.ru какой вид должен принимать robots.txt если можно всё содержимое выложите как вы рекомендуете. robots.txt должен ведь лежать в корне форума?

BIOHAZARD

да, в корне

возьмите роботс из этой темы, Вам он должен подойти, потом просто следите через панель яндуха и гугла за качеством индексации и корректируйте свой роботс.тхт (при необходимости)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Sonyk

Вот этот подойдёт
User-agent: *
Allow: /*sitemap
Allow: /*arcade
Allow: /*rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action

User-agent: Slurp
Crawl-delay: 100


И всё будет индексироваться нормально в Яндексе и в Гугле?

BIOHAZARD

да, нормально
можете удалить строки с arcade и games - скорее всего, у Вас таких адресов нет
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Sonyk

Здравствуйте! Не могли бы вы мне по пунктам написать,что нужно сделать после установки форума для правильной его индексации без дублирующих сессий короче, чтобы было всё как у людей и желательно бы чтобы robots.txt был выложен, огромное спасибо тому кто всё это напишет!!! :)

Yworld_garry

Я даже и не знаю как ещё более понятнее можно написать чем написано в этой темке. Читайте первый пост.

Что бы не искать, добавьте к тому файлу что выложен и в шапке и ещё на куче страниц этого топика
Disallow: /*PHPSESSID
Не будет сессий, а если использовать такую замечательную опцию в админке как управление поисковыми ботами. То проблем не будет вообще.
Добавляете нужного бота и сессии для него пропадут.

Sonyk


GeorG

ЦитироватьСтавим вот этот мод SMF Sitemap

Добавляем её в ПС из панелей. Обрабатывается без ошибок и в яндексе и в гугле.
И не забываем запретить индексацию к ней ботам в robots.txt
В таком виде

Disallow: /forum/index.php?action=sitemap
1. Не пойму, зачем ставить мод, чтобы составить карту сайта для поисковика, и в тоже время закрывать его от поисковиков... Мм? В чем здесь фишка?
2. Я составлял файл sitemap.xml с помощью программы A1.Sitemap.Generator, кидал его в корень форума и прописывал в файле robots.txt это:
Sitemap: http://мой форум/sitemap.xml
Я так понимаю этого больше не надо делать, при применении этого мода :)
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Yworld_garry

1) Это как хотите, можете оставить. Но смысл грузить ботами. Вы же отдаете ботам карту в xml загрузив её в панелях ПС.
Уточню, не запрет а рекомендация.

2) это конечно гут, но добавить в панели обязательно. А вот указывать в роботс не обязательно.



GeorG

Спасиб, оказывается я всё сделал правильно. Я только не учёл (хотя и сделал так) что поисковик смотрит карту xml.
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

BIOHAZARD

Цитата: Yworld_garry от 26 августа 2010, 18:43:562) это конечно гут, но добавить в панели обязательно. А вот указывать в роботс не обязательно.
если даже не добавлять в панели, а просто прописать в роботс.тхт, то роботы карту всё равно найдут...
когда-нибудь... может через месяц, а может и через пол года
при добавлении в панели боты реагируют в течение 1-2 апов
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Sonyk

Здравствуйте!!! У меня есть сайт на Joomla и я хочу в этот сайт интегрировать форум smf 2.0 подойдёт ли данный файл robots.txt и куда его нужно заливать в папку forum которая находится в папке где лежит сам сайт или же просто дописать все эти строчки в robots.txt Джумлы?

# Google, StackRambler, Yandex, Aport - Важные боты для нас.
# К сожалению их останавливает тег noindex.
# Если вы удалили noindex коснтрукцию то это должно пригодиться.
# Для всех ботов
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100

Мне очень нужно это узнать

Макар

Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Pozzitivsp

Кто знает подскажите как должен выглядеть файл robot.txt что бы индексировались все топики и сообщения но не индексировались ситсемные страницы такого плана :
Помощь пользователям SMF: Личные Сообщения
Центр Статистики
Регистрация
Помощь пользователям SMF: Введение
Параметры Поиска
Напоминание пароля
Войти
Последние сообщения и тд. 

если можно киньте готовый код. Большое спасибо.

BIOHAZARD

Цитата: Pozzitivsp от 08 сентября 2010, 17:11:15если можно киньте готовый код. Большое спасибо.
если можно, прочтите сначала этот топик - здесь всё уже сто раз написано
не за что
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

she

Помогите пожалуйста. Перечитать все 45 страниц не успеваю. У меня сайт Джумла и форум. Как должен выглядеть для них робот?
Я его составляла сама и уверена что-то там не правильно, так как сайт индексируется, а форум почти весь исключается(((

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*printpage
Sitemap: не важно

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*printpage
Host: sheknow.ru
Sitemap: не важно

User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /

User-agent: Slurp
Crawl-delay: 100



Не пойму нужно вставлять строку Disallow: /forum/*.msg или нет? Это имеется ввиду запрет на все сообщения?
И что такое User-agent: Slurp
Crawl-delay: 100

BIOHAZARD

Цитата: she от 15 сентября 2010, 13:46:02
Не пойму нужно вставлять строку Disallow: /forum/*.msg или нет? Это имеется ввиду запрет на все сообщения?
И что такое User-agent: Slurp
Crawl-delay: 100
нет, это запрет на ссылки "последнее сообщение в теме", любая тема остаётся доступной по обычной ссылке из списка тем в разделе - нужно для удаления дублей из выдачи

slurp - можете смело выкинуть, пока он к вам не нагрянет (не факт, что хоть когда-нибудь нагрянет)

в целом вроде нормально, но в любом случае мониторьте весь первый месяц выдачу в панели вэб-мастера яшки и гугля
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

she

#444
Спасибо большое.
Подправила. А если убрать Disallow: /media/ то картинки сайта буду индексировать?
Так вот что странно. Вроде бы форум открыт для индексации, так роботом загружено 20 000 страниц, а исключил он из за запрета 18 000 и речь о форуме. Уже не пойму что ещё исправить надо.  И в шаблоне мета тэг меняла. Всё равно

BIOHAZARD

Цитата: she от 15 сентября 2010, 14:34:55
если убрать Disallow: /media/ то картинки сайта буду индексировать?
в панели вэб-мастера яндуха есть удобный инструмент проверки robots.txt на предмет закрытия страниц на форуме

Цитата: she от 15 сентября 2010, 14:34:55
Так вот что странно. Вроде бы форум открыт для индексации, так роботом загружено 20 000 страниц, а исключил он из за запрета 18 000 и речь о форуме.
это нормально
проиндексировано должно быть ссылок чуть больше, чем у вас тем на сайте
в "чуть" входят страницы [2, 3,4, ...] из тем на несколько страниц (извините за тавтологию)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

jack87


kak2z

Если нужно что то исправить, обновить, переставить, настроить, сделать форум заново - пишите в ЛС)

M15


Gruzovik