Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

lovemuscle

  :-[ а также стоит ли исключать папку "cgi-bin\", также находящуюся в корне
smf 1.1.11. Измененная тема - MegaPolis. Установленные моды: Ad Managements 2.3/Sitemap 1.2.2/Load Standard Language 1.0.2/Google Analytics Code 0.1/Remove MySQL, PHP & W3C images to minimize footer size 1.2

lovemuscle

Цитата: Yworld_garry от 04 октября 2008, 23:59:13
Некоторые форумы просто нагибает вот этот гад Twiceler, если он игнорирует запрет то прописываем в .htacceess

order allow,deny
deny from 38.99
deny from 64.1.215
deny from 208.36.144
allow from all
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Twiceler-0\.9.*$ [NC]
RewriteRule ^.* - [F]

[/color]
Уважаемый Yworld_garry, не подскажете, в какое именно место там нуужно вставлять этот код? За ранее благодарю за ответ
smf 1.1.11. Измененная тема - MegaPolis. Установленные моды: Ad Managements 2.3/Sitemap 1.2.2/Load Standard Language 1.0.2/Google Analytics Code 0.1/Remove MySQL, PHP & W3C images to minimize footer size 1.2

BIOHAZARD

Цитата: lovemuscle от 14 апреля 2010, 01:20:28
Доброй ночи, господа! У меня такой вопрос: стоит ли исключать из индекса такие файлы в корне, как:
index.php
Settings.php
Settings_bak.php
SSI.php
ssi_examples.php
news_readme.html
readme.html
ssi_examples.shtml
agreement.txt
changelog.txt
license.txt
smffooter.txt
smfheader.txt

Заранее благодарю за ответ
нет, их всё равно никто не индексирует, т.к. на них нет ссылок со страниц форума
а index.php - это главный файл вашего форума, запретите его и вообще ничего индексироваться не будет
Цитата: lovemuscle от 14 апреля 2010, 01:25:45
  :-[ а также стоит ли исключать папку "cgi-bin\", также находящуюся в корне
нет
Цитата: lovemuscle от 14 апреля 2010, 01:35:30
Уважаемый Yworld_garry, не подскажете, в какое именно место там нуужно вставлять этот код? За ранее благодарю за ответ
пока он (Twiceler) не заявился к Вам, не делайте лишних движений
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

lovemuscle

Спасибо, что просветили меня - такого неграмотного  O0
smf 1.1.11. Измененная тема - MegaPolis. Установленные моды: Ad Managements 2.3/Sitemap 1.2.2/Load Standard Language 1.0.2/Google Analytics Code 0.1/Remove MySQL, PHP & W3C images to minimize footer size 1.2

maugli77

Здравствуйте!  :)
Прочитал данную тему, но поскольку особых знаний нет - помогите все таки понять насколько правильно я составил файл robots.txt
Версия форума RC2  компонент карты сайты для форума не установлен.
Хотел сделать еще так, чтобы в файле был прописан файл карты сайта для основного сайта. Форум установлен в папке forums. Для сайта robots.txt не делал, только для форума. Бросаю файл разумеется в корень самого сайта.
Заранее благодарен!
ЦитироватьUser-agent: *
Allow: /forums/*sitemap
Allow: /forums/*rss
Allow: /forums/*type=rss
Allow: /forums/
Allow:
Sitemap: http://wolcha.ru/sitemap.xml
Disallow: /forums/attachments/
Disallow: /forums/avatars/
Disallow: /forums/Packages/
Disallow: /forums/Smileys/
Disallow: /forums/Sources/
Disallow: /forums/Themes/
Disallow: /forums/Games/
Disallow: /forums/*.msg
Disallow: /forums/*.new
Disallow: /forums/*sort
Disallow: /forums/*topicseen
Disallow: /forums/*imode
Disallow: /forums/*action
Disallow: /forums/*prev_next
Disallow: /forums/*all
Disallow: /forums/*wap
Disallow: /forums/*wap2
Disallow: /forums/*calendar
Disallow: /forums/*PHPSESSID
Host: www.wolcha.ru

User-agent: Slurp
Crawl-delay: 100

Yworld_garry


maugli77


LOMANI

что тут лишнее? =)
мод сайтмап стоит + в корне sitemap.xml есть
принт пейдж стандартный
User-agent: Mediapartners-Google
Allow: /*action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen

User-agent: *
Allow: /*sitemap
Allow: /*arcade
Allow: /*rss
Allow: /*type=rss
Allow: /*action=media
Allow: /*action=forum
Allow: /*action=downloads
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*calendar
Host: www.mega-team.ru
Sitemap: http://forum.mega-team.ru/sitemap.xml

User-agent: Slurp
Crawl-delay: 100

User-agent: msnbot
Crawl-delay: 120

User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /

Bugo

Там, где Host... => www не ставят.
Первый блок (Mediapartners-Google) можно убрать, если не собираетесь пользоваться рекламой Google AdSense.

Yworld_garry

Цитата: Bugo от 04 мая 2010, 12:03:07
Там, где Host... => www не ставят.
Поправлю немного.
Указывается главное зеркало, а с www или без решать вебмастеру.
Я бы советовал ставить зеркало которое "крепче" в индексе.

BIOHAZARD

и хост и сайтмап должны быть одного вида с или без www (не как правило, а как рекомендация)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

LOMANI

т.е. сделал выводы - у мя всё путёво, но в хосте желательно убрать www?

Yworld_garry

Цитата: BIOHAZARD от 04 мая 2010, 15:01:55
и хост и сайтмап должны быть одного вида с или без www (не как правило, а как рекомендация)
Посмотрите как проиндексировал яндекс, поклеил или нет. Если не поклеил, то выберите более "крепко проиндексированное". Собственно если проект молодой, то выбрать можно более приятное для вас.

AgaT

Подсоветуйте грамотный роботс при установленном PrettyURL. Заранее громадное спасибо.

AgaT

У меня вышло:

ЦитироватьUser-agent: *
Disallow: /?topic
Disallow: /*?
Disallow: /*vt
Disallow: /*msg*
Disallow: /*/*/*/*msg*
Disallow: /*/*/*msg*
Disallow: /*/*msg*
Disallow: /*value=
Disallow: /*javascript
Disallow: /help/
Disallow: /search/
Disallow: /register/
Disallow: /login/
Disallow: /activate/
Disallow: /profile/
Disallow: /stats/
Disallow: /recent/
Disallow: /reminder/
Disallow: /arcade/
Disallow: /calendar/
Disallow: /statistics.php
Disallow: /groupcp.php
Disallow: /*rss*
Disallow: /*wap*
Disallow: /*imode*
но не совсем со звездочками разобрался, да и может неправильно что.

Yworld_garry

Вместо вот этого
Disallow: /*msg*

Достаточно
Disallow: /*msg
Дальше по аналогии.
Что за урлы выдаёт PrettyURL я не знаю. Смотрите, проверяйте в панелях ПС. Какие дубли и тд могут появится, так же смотрите урлы.

AgaT

как раз выдает типа /msg7777/ - и звездочка спереди такое не закроет наверное. В гугле висят страницы 10 раз - по числу сообщений на странице темы.

BIOHAZARD

* - любое количество любых символов или их отсутствие, так что закроет

в любом случае проверьте свои урлы в панели вэбмастера у яшки и гоши
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

AgaT

Правильно - любое. Но в названиях файлов - любое кол-во символов до или после. В моем случае идет /msg*

Yworld_garry

Вот вам проверка от яндуха. http://webmaster.yandex.ru/robots.xml
Загоняете свой файл и вставляете урл
Единственная строчка что вам нужна из мессаг.
Disallow: /*msg
Остальные выкинуть
Disallow: /*/*/*/*msg*
Disallow: /*/*/*msg*
Disallow: /*/*msg*

при таком написании *msg  звёздочка в конце предполагается и яндекс её учитывает автоматом.

AgaT


AgaT

урл типа /moder/sunduchek/msg1200000/ кушает, если не указать уровень вложенности также звездочками.

Yworld_garry

Проверьте ещё раз, не должно быть такого.
Вот из панели гугла с вашего роботс

Результаты проверки
URL    
/moder/sunduchek/msg1200000/    
Робот Google
Заблокировано по строке 4: Disallow: /*msg*

AgaT

Да, лочит - просто висели в индексе сопли и в панели был старый роботс.

GeorG

Установлена Медиа Галерея, там такие адреса есть:

(к примеру)
/index.php?action=mgallery;sa=item;id=11
/index.php?action=mgallery;sa=media;id=11;preview


Это я разрешил - /index.php?action=mgallery;sa=item;id=11, директивой Allow: /*action=mgallery

А вот это надо закрыть от роботов - /index.php?action=mgallery;sa=media;id=11;preview
Это - Disallow: /*preview - не прокатывает
На это - Disallow: /*;preview - ругается

Я там много чего пробовал, не чего не подходит...
Вот мой Роботс:
ЦитироватьUser-agent: Mediapartners-Google
Allow: /*action
Allow: /*.new
Allow: /*.msg
Allow: /*.topicseen

User-agent: *
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*action=mgallery
Allow: /*action=forum
Allow: /*page
Allow: /*action=pmxblog
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Disallow: /editor_uploads/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php?action=sitemap
Disallow: /*preview
Disallow: /go.php
Host: Сайт.ru

User-agent: Slurp
Crawl-delay: 100

User-agent: msnbot
Crawl-delay: 120

User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /

Sitemap: http://сайт.ru/sitemap.xml


Гм... может, кто знает, что можно придумать? Сам я, в растерянности... angel
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Yworld_garry

Что то типо того
Allow: /*mgallery*item # Убираем символ на который ругается
Disallow: /*preview

Должно работать на приведённых ссылках.
Можно наверно сочинить правило с условиями, но я сейчас на работе и время ноль.
В гугле не проверял естественно.

GeorG

Ага заработало O0 спасибо, сам бы я в жизни не догадался... мало в сео смыслю :)


Можно даже без Disallow: /*preview
Так как - /index.php?action=mgallery;sa=media;id=11;preview запрещено Disallow: /*action  :)


В общем нужна только эта строчка Allow: /*mgallery*item Может ещё кому сгодится :)
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

BIOHAZARD

яша хоть и ругается на ";", но обрабатывает нормально, так что особо не пугайтесь предупреждений - это не ошибки
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Skeeve

Видел форум, где ничего не закрыто, стоит на первом месте в Яндексе по НЧ запросу. В связи с этим вопрос - может и не закрывать страницы роботсом?
у кого имеется в этом опыт, посоветуйте - как влияет на выдачу наличие посторонних страниц форума в индексе. Увеличится ли позиция или наоборот уменьшится? принтпэйджи можно и исключить, т.к. не уникальный контент, а все остальное?
Надежный хостинг, хороший support, домены от 120 рублей. beget.ru, ID партнера 1388. При указании меня в качестве реферала - 5$ в подарок

BIOHAZARD

исключайте всё нафиг, а то в индексе будут одни сервисные страницы от которых толку ноль
"лучше меньше, да лучше" - слышали такое выражение?

если закрыть всё лишнее, то основной контент индексируется на много лучше и регулярнее, так что в итоге позиции в серпе улучшаются

Цитата: Skeeve от 17 мая 2010, 12:19:31
Видел форум, где ничего не закрыто, стоит на первом месте в Яндексе по НЧ запросу.
если было бы закрыто, то возможно был бы в топе не только по НЧ
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

Beer

Наткнулся на такой ход мысли:
Можно запретить посещать всем ботам сайт, кроме тех, что нужны прописав в файле robots.txt строку:
User-Agent: *
Disallow:*
Это запрещает посещение всеми ботами, для которых не сделана отдельная запись.
а для разрешенных ботов пропиши например:

яндекс:
User-agent: Yandex
Disallow:

гугл:
User-agent: Googlebot
Disallow:

рамблер и апорт:
User-agent: StackRambler
Disallow:

Т.е. полезных гораздо меньше, чем бесполезных, и наверное логичнее разрешать, нежели запрещать, а?

Макар

не забывай что некоторым ботам пофик с высокой колокольни что у тебя прописано ............
они все равно лезут
единственное в результатах выдачи не показывают запрещенные страницы
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Pika4y

Зашел в вебмастер гугла. Посмотрел ключевые слова.
На первых местах были : forum,index,php,gmt и тп
Хорошо что есть возможность посмотреть откуда они проиндексировались. Все из:
index.php?action=.xml;type=rss
Как лучше решить эту проблему? Просто запретить через роботс или есть другие решения?

Макар

Прописать их в админке . Вместо стандартного набора. Но ! гоше пополам что у тебя прописано. Он формирует собственный список. Почитай в этом разделе есть моя тема про гошу и ключевые слова. С тех пор ничего не изменилось. Чем больше будешь использовать в самом тексте ключевых слов , тем точнее будет список гоши . На остальное ему пофик,
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

LexSB

мне яндекс четко дает понять:
Документ содержит мета-тег noindex

хз почему... все делал как надо и роботу все разрешил - толку никакого!
http://force-online.ru - мой сайт

Bugo


LexSB

вопрос в другом где искать???
коотрый описыавют тут в теме поменять - уже давно сделано... и форум в один момент ни с того ни с сего слетел...
http://force-online.ru - мой сайт

Yworld_garry

Если разговор о форуме из подписи то
1) <meta name="robots" content="noindex" />
на месте и не убран.
2) Ссылка с сайта имеет вид http://force-online.ru/forum
3) robots.txt  нет вообще
4) Проверьте почему форум так долго грузится.
5) В индексе ПС, столько мусора, просто пипец.
6) И тд

atfosan

Извините, если мои вопросы уже рассматривались, но уж больно большой топик, чтобы всё перечитывать. Кстати, может стоит почистить его, в особенности от тех вопросов, которые уже вынесены в шапку?

Итак, начну.
1. Правильно ли я понял, что данный robots.txt подойдет и при использовании модов ЧПУ, например, SimpleSEF? Тогда встает вопрос о строчке "Disallow: /forum/*action" - эти моды вырезают слово "action" из адреса, значит надо вручную исключать все оставшиеся действия?
2. Разве не достаточно для исключения печатных версий добавить всего-то Disallow: /*printpage ?
3. Если прописать "Disallow: /forum/index.php?action=sitemap" поисковики, при указании в панели адреса /forum/index.php?action=sitemap;xml точно будут правильно читать её? В данный момент у меня гугл выдал:
ЦитироватьОбнаружен недействительный URL файла sitemap; синтаксис не распознается
Или все-таки действительно это формат карты неверный?

Заранее спасибо за ответы и, если что, извините за оффтопик :)
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Yworld_garry

Не знаю какие урлы выдаёт SimpleSEF
Как раз всё что ненужно запрещено, то что нужно просто добавить, пример в самом файле. Allow: /forum/*sitemap
Синтаксис он и в Африке синтаксис, смотрите что генерит карта ваша.

Собственно слишком много постов по существу и решающих проблемы и тп. Чистить не стоит.
На самом деле достаточно добавить файл из аттача и добавить если нужно разрешений на те модули, которые установлены у вас, и к ним нужен доступ бота.
Например игры, блоги.
Изначально подходит практически всем.
Единственно если форум стоит как action, добавить разрешение.

atfosan

Ну я и говорю, что SimpleSEF, как и PrettyURLs вырезает "index.php?action=" из адреса действий... то есть в случае с ним (в моем случае) нужно ещё руками исключать, например, /*search, /*register и т. п... Это долго и нужно учитывать много действий: есть более новая версия вот этого - http://www.simplemachines.ru/index.php?topic=5089.msg33185#msg33185?
Или можно как-нибудь просто прописать "Disallow: /" и дальше только включить нужное? Судя по манам в самих поисковиках так можно, но вот у меня в прошлый раз не индексировалась страничка, поэтому кто-нибудь, может, по опыту скажет, так ли это?
Карта моя вроде выглядит как обычная XML и Яндекс её сегодня съел без ошибок, а вот Гугл что-то вчера не захотел... ну да ладно, не это главное.

А еще, если "Disallow: /attachments/", то вложенные документы будут индексироваться? Они, конечно, доступны через dlattach, но сами-то файлы ведь в обычной директории лежат.

Если учесть опыт с модами ЧПУ, то можно немного изменить robots.txt, чтобы он был действительно универсален.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Yworld_garry

Сейчас robots.txt универсален подходит 99% пользователей.
Различные моды типо ЧПУ использует один веб мастер из тысячи, так как смыл их использования на форумах стремится к нулю.
Если у вас стоит один из таких модов, думаю вам несложно посмотреть те урлы которые выдаёт он и исключить из индекса не нужные.
Это НЕ долго, урлов НЕ много. Не забывайте мониторить выдачу яндекса, иногда можно много удивительного увидеть при использовании такого рода "ЧПУ".
С аттачами всё нормально.

Сделаете роботс с учетом работы используемого мода, выкладывайте, возможно пригодится кому то.

atfosan

Ладно, подожду полной индексации сайта и попробую сделать.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Yworld_garry

Цитата: atfosan от 20 июня 2010, 18:39:44
Ладно, подожду полной индексации сайта и попробую сделать.
Не надо ждать индексации, это обратный и долгий путь. Сначала загнать мусор в индекс, как минимум получить кучу дублей и один из множества " не серьезных"фильтров ПС.
Как максимум попасть под более крутые санкции.
Исключите сразу по урлу генерируемому вашим ЧПУ. Пропишите запрещающие правила на :
stats
profile
reporttm
sort
unread
msg
dlsort
sendtopic
printpage
login
register
activate
search
help
mlist
who
reminder
verificationcode
recent
post
new
cur_topic_id
topicseen
collapse
expand
calendar
group
members
dlattach
attach
tpmod
imode
wap
rss
theme
all
prev_next

atfosan

Пока что я пошёл другим путём:
User-Agent: *
Host: www.example.ru
#Кстати, возможно, гугл не читал карту сайта, потому что к ней был указан относительный путь. Нужно именно полный:
Sitemap: http://www.example.ru/index.php?action=sitemap;xml
#Разрешил основной контент: главную, страницы портала (PortaMx), разделы форума:
Allow: /$
Allow: /*spage
Allow: /*board
#Исключил страницы с отдельными сообщениями и включил топики, где "_" - символ, указанный для пробела в настройках SimpleSEF. Причем директивы именно в таком порядке, чтобы все правильно исключилось:
Disallow: /*.msg
Allow: /*topic_
#И исключил все остальное:
Disallow: /

User-Agent: Slurp
Crawl-delay: 100

#Кстати, как вам это?:
User-Agent: Googlebot-Mobile
Allow: /*wap
Disallow: /

#Это сделал потому, что фотографии в галерее на сайте довольно личные, и лучше, чтобы их не было в поисковой выдаче:
User-Agent: Googlebot-Image
Disallow: /


Кстати, не логичнее ли пойти подобным путём и при обычных УРЛах? Исключать нужно больше, чем включать, а это лишний размер файлах robots.txt.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Yworld_garry

А вы скачивали файл из аттача?
Он имеет очень простое содержание, вот кусок от функционала форума, куда ещё проще.

Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all


atfosan

Я скачивал. Но все-таки моя версия даже по байтам будет меньше вашей :)
Да вопрос, вобщем-то, даже не в байтах, а в логичности.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

Yworld_garry

Собственно сделаете для мода SimpleSEF, выкладывайте.
Посмотрим, потестим, будет полезно использующим этот мод.
А байты тут роли не играют. Есть определённые размеры, но до их предела очень далеко.
Плюс простота для понимая большинством ПС.
Можно конечно условий накрутить, но не всегда это оправдано.

atfosan

Я, конечно, активно пишу им в топик, чтобы кое-что поменяли в моде, тогда бы ваш способ, возможно, оказался действительно более лучшим (чтобы не приходилось разрешать для индексации каждую страницу портала), но пока автор отнекивается, и я свой способ нахожу действительно более логичным.
В принципе тогда уже прямо сейчас выкладываю этот вариант robots.txt. Но нужно отметить, что существует следующие условия для его использования:
1. Форум должен лежать в корне сайта.
2. Кроме форума в домене не должно быть никаких других скриптов, которые может понадобится индексировать поисковикам, иначе разрешайте их страницы для индексации их самостоятельно.

Оставил ещё пару комментариев в самом файле.
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.

atfosan

Вчера в поиск попало кое-что ненужное, поэтому вот исправленная версия файла + директивы для правильно индексации галереи Aeva Media.
Allow: /$
Allow: /files/ # нужна, если у вас имеется данная директория и вы хотите позволить поисковикам индексировать файлы из неё
Allow: /*forum$ # позволяем индексировать главную страницу форума, при наличии модов портала
Allow: /*dlattach # даем доступ к файлам из вложений
Allow: /*spage
Disallow: /*sort
Disallow: /*help # 1
Disallow: /*prev_next # 2
Disallow: /*all # 3
Allow: /*board
Disallow: /*printpage # 4
Disallow: /*.msg
Allow: /*topic_
Disallow: /*asc # запрет на индексацию страниц альбомов и элементов галереи Aeva Media с типом сортировки в адресе ...по возрастанию
Disallow: /*desc # ...по убыванию
Disallow: /*fw # ...просмотр списком
Disallow: /*nw # ...нормальный просмотр
Allow: /*item # позволяет индексировать сами элементы галереи
Allow: /*album # страницы альбомов Aeva Media
Disallow: /


1, 2, 3 и 4 пришлось дополнительно запретить, чтобы из-за "Allow: /*topic_" и "Allow: /*board" в индекс не попадали страницы с действиями, прописанными в этих запрещаеющих директивах.

Остальные страницы альбомов и элементов галереи Aeva Media с типом сортировки в адресе запрещены директивой "Disallow: /*sort".

Кстати, имеются очень сильные подозрения, что моя версия robots.txt универсальна: она подойдет, как для использования со стандартными ссылками на форуме, так и с ЧПУ. Также теоретически без разницы, в корне лежит SMF или в поддиректории на хосте. Именно из-за этого мне тут пришлось нагородить огород :)
мой проект на SMF - школьный сайт: основные моды PortaMx и SimpleSEF.