Правильный robots.txt

Автор .nitro, 19 октября 2007, 07:38:30

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

.nitro

Подскажите, как должен выглядеть правильный robots.txt для SMF?
Т.е. закрыть от поисковиков всё, что им видеть не можно.
SамыйMатёрыйFорум 2.0.15, URL: http://kamrc.ru/ - форум Камчатских радиолюбителей

aleksandr.v


.nitro

о, малость подредактировать можно :)
SамыйMатёрыйFорум 2.0.15, URL: http://kamrc.ru/ - форум Камчатских радиолюбителей

domofor

Цитата: blaster от 19 октября 2007, 08:00:17
Я сделал как на этом сайте - http://www.simplemachines.ru/robots.txt ;)
Уже не раз говорилось, что на этом сайте кроме самого движка форума стоит мод Тинипортала, поэтому просто скопировать - не совсем верно. Кроме того, Мавн где-то сообщал, что сделал на своем форуме какие-то отдельные разделы запрещенные для индексации.

X-tremo

Подскажите как закрыть индексацию Рапорта модератору?

Юран

а если отсавить файл пустым? это о же ссамое что разрешить индексацию?

domofor

Несмотря на наличие строки Disallow: /attachments/ Яндекс почему-то лезет на форум и пишет про ошибки:

ЦитироватьОшибок: 1613. Неверный формат документа:
http://dom-forum.ru/index.php?action=dlattach;topic=158.0;attach=2456
...
...
Сервер не указывает тип документа, указывает неправильно или указанный тип не поддерживается Яндексом.

Или для такого случая должна быть другая строчка в robots.txt?

Mavn

хех а ты адрес вложения покажи и скажи где там прописан адрес http://dom-forum.ru/attachments/ ? отвечу за тебя - нигде. Хотите запретить вложения для индексирования запретите экшен index.php?action=dlattach
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

domofor

Цитата: Mavn от 16 ноября 2007, 07:37:55
Хотите запретить вложения для индексирования запретите экшен index.php?action=dlattach
А почему на http://www.simplemachines.ru нет такого запрета? Я же по примеру гуру сделал :)

Mavn

ну мы уже где то писали что делали под себя :)
а у нас вложения для гостей закрыты поэтому и не прописали :)
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Roman

#10
И все таки, хотелось бы увидеть "универсальный" наиболее эффективный роботс.тхт для СМФ форума по умолчанию. В этом разделе присутствуют как минимум несколько вариантов, хотелось бы понять, какой из них наиболее верный.

Или если несложно, опишите пожалуйста методику, по которой можно определить, эффективен тот или иной роботс.тхт или нет. В частности Mavn, вы писали о том что определяли правильность экспериментальным путем.

.nitro

Цитата: Roman от 18 ноября 2007, 13:19:05
И все таки, хотелось бы увидеть "универсальный" наиболее эффективный роботс.тхт для СМФ форума по умолчанию. В этом разделе присутствуют как минимум несколько вариантов, хотелось бы понять, какой из них наиболее верный.

Или если несложно, опишите пожалуйста методику, по которой можно определить, эффективен тот или иной роботс.тхт или нет. В частности Mavn, вы писали о том что определяли правильность экспериментальным путем.
Я остановился на таком варианте:

User-agent: *
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: index.php?action=search;
Disallow: index.php?action=search2;
Disallow: index.php?action=mlist;
Disallow: index.php?action=admin;
Disallow: index.php?action=pm;
Disallow: index.php?action=sendtopic;
Disallow: index.php?action=markasread;
Disallow: index.php?action=notify;
Disallow: index.php?action=stats;
Disallow: /*sort
Disallow: /*prev_next
Disallow: /*msg

host: www.moderatoroff.net/

User-agent: Slurp
Crawl-delay: 10000

Sitemap: http://moderatoroff.net/index.php?action=sitemap;xml
SамыйMатёрыйFорум 2.0.15, URL: http://kamrc.ru/ - форум Камчатских радиолюбителей

BIOHAZARD

У каждого свой вариант

User-Agent: *
Allow: *action=forum
Disallow: *action=*
Disallow: *msg
Disallow: *.new
Disallow: */sort
Disallow: /go.php
Sitemap: http://userjs.org.ru/sitemap.xml

User-Agent: Mediapartners-Google
Allow: /

User-Agent: Adsbot-Google
Allow: /

Короче уже некуда по моему
Две нижних секции для нормальной работы АдСенса на страницах, если нет рекламы гугла, то они не нужны
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Yworld_garry

BIOHAZARD папки не просто так закрывают, думаю есть смысл добавить. И сразу давайте объяснения, что у вас подключен форум как экшен иначе не все поймут.
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/

Прошедший тесты и со всеми объяснениями в топике, сам файл во вложении, все объяснения и изменения для лучшей индексации в топике.
http://www.simplemachines.ru/index.php/topic,5089.0.html (файл во вложении обновлён 29/03/09)
Хотя конечно не отменяет любые варианты и вариации.

BIOHAZARD

Цитата: Yworld_garry от 04 апреля 2009, 13:39:26
BIOHAZARD папки не просто так закрывают, думаю есть смысл добавить. И сразу давайте объяснения, что у вас подключен форум как экшен иначе не все поймут.
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
как только хоть один бот их проиндексирует, добавлю в роботс
по поводу Allow: *action=forum – да, действительно, наиболее актуально это для систем, где форум доступен только через экшен (например, когда у вас стоит любой портал под smf), хотя не противоречит и ситуациям, когда форум работает в штатном режиме, хотя это и может вызвать появление дублей.

В любом случае надо самому проглядывать как твой сайт индексируется поисковиками и блокировать либо открывать те или иные страницы.
Универсального решения быть не может!
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Yworld_garry

BIOHAZARD, совершенно с вами согласен, не может быть ни чего универсального в этом вопросе. Мы лишь даем удобные заготовки.
Конкретная выдача и индекс решают уже более персонализированную структуру. Ну и те задачи и тд, что стоят у конкретного проекта.

насчёт папок, дело не в том что будут они в индексе или нет. дело в лишней нагрузки на форум. У вас сейчас разрешены все картинки и тд, по которым переходят боты. И поверьте переходят и с удовольствием. Не считая картинок куча всякой остальной лабуды.
Ну и естественно в индексе может не в основном но в картинках например, вся ваша тема по кускам висит.

BIOHAZARD

кстати, как насчёт *.all.html ??
интересно твоё мнение по этому поводу, а то я терзаюсь сомнениями, закрывать или нет
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Yworld_garry

ты насчёт дружественных урлов?
Если да, то убивать на корню. Ищутся только по внутренним из топиков, ПС боты их не воспринимают по урлу сгенеренному, один мусор в выдаче и те же дубли. Использование их в том виде что есть по дефолту считаю не оправданным и лишним. Для гугла оно ещё проскакивает( далеко не всегда), а вот яндух с ними не дружит.