Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 Октябрь 2008, 23:59:13

« предыдущая тема - следующая тема »

0 Пользователей и 1 Гость просматривают эту тему.

Вниз

mdm

Цитата: mdm от 30 Октябрь 2008, 16:34:48
Весь форум кроме главной запрещен в файле robots.txt это только у меня или у кого то еще есть? ставил последнюю версию файла.

Не до конца разобрался. Судя по ошибкам в robots запрещены дубли, которые я принял за основные. Но и в индексе ничего не добавилось, но это уже другая проблема. Спасибо.

Чеширский кот

"garry69" с повышением:)
Жду результатов, а пока сделал некоторый "хитрый финт ушами". Конечно не выход, но если кого заинтересует можно посмотреть на форуме сайта в личных данных есть ссылка (спамить ссылкой не буду).
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

egonika8m, спасибо.
"хитрый финт ушами" пожалуйста опишите мне в личке.
А вот это:
<meta name="keywords" content="PHP, MySQL, bulletin, board, free, open, source, smf, simple, machines, forum" />

Поменяйте на свои в index.template.php

online-gambler

Подскажите, пожалуйста, как бороться с дублями. Если их победить, то индекс моего форума будет идеален. А дубли такие:

              /forum/index.php?topic=13.0
             /forum/index.php/topic,13.0.html

Какой из этих файлов лучше исключить из индекса, с точки зрения СЕО? И как?

Yworld_garry

online-gambler, думаю уберите /forum/index.php/topic,13.0.html. Так как его ПС заглатывают в основном по внутренним, его просто не существует для них.
Это для яндекса. Для гугла должно быть нормально и он реже захватывает "красивые урлы".
Можно запретить по расширению, но я не знаю что может попасть у вас под это дело.
По этому просто запретите именно такие урлы.
Disallow: /forum/index.php/topic

И проверьте в панели ПС, как оно работает у вас. Лучше в обоих панелях. Я проверил должно работать, но опять же не знаю вашего роботс.

dmmb

Allow: - такой диррективы нет в роботсе. есть только Disallow

бот воспримет как не валидный роботс и может проигнорировтаь либо не пойти дальше неправильной строки.

в роботсе мы только накладываем ограничения. мы только запрещаем. а что не запрещено то разрешено :) так что поправьте. Allow:  не должно быть.

Adept

Но что самое интересное для робота Яндекса директива Allow работает, самому пришлось воспользоваться. Да и Гугль не ругается на нее.
На счет рамблера и других просто не пробовал.

Yworld_garry

#57
05 Ноябрь 2008, 22:04:23 Последнее редактирование: 06 Ноябрь 2008, 00:07:47 от garry69
dmmb,Я к сожалению не имею сейчас возможности ответить более развёрнуто. нахожусь довольно далеко.
но если вы так без аппеляционно заявляете об отсутствии этой директивы. Хотелось-бы увидеть ссылку на маны где это вы подчерпнули. так же результаты ваших проверок без этой директивы в панелях пс.
я владею обратной информацией и очень интересно пополнить мои знания.
пс
сорри за синтаксис и пунктуацию. пишу с мего не удобной штуки и с неудобного для этого места.

Такс я сейчас добрался и напишу более развёрнуто.
Напишу на основе общедоступных манов от яндекса( могу заверить, что они не отличаются от других ПС, в основной части).

Совместное использование директив.

ЦитироватьЕсли для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке. Примеры, если:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц начинающихся с '/cgi-bin'

User-agent: Yandex
Disallow: /
Allow: /cgi-bin
# запрещает скачивать весь сайт


Этот отрывок из мануала я привёл для наглядности порядка выполнения директив. Возможно кто то решит добавить правила в роботс, не забывайте о порядке.
Валидность ваших правил можете проверять в панели веб-мастера, как в гугле так и в яндексе.

RedFire2017

Несмотря на то, что были предложения по расширению стандарта robots.txt и внедрению директивы Allow эти предложения формально не были утверждены. Директивы allow сейчас официально не существует, хотя отдельные роботы её всё же понимают, например, Гугл - http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846

Yworld_garry

#59
07 Ноябрь 2008, 19:08:09 Последнее редактирование: 07 Ноябрь 2008, 20:05:08 от garry69
Глядя по результатам, видимо и некоторые другие боты, кроме яндекса и гугла, теперь тоже работают с разрешениями.
Но если честно на данный момент интересна индексация в яндексе, рамблере и гугле. Яху и некоторые другие пока не интересны, с ними поработаем позже. Возможно отдельными блоками.
Я изначально хотел сделать роботс без разрешений, только после нескольких тестов и нормальной работы опубликовал с ними.
Возможно с некоторыми изменениями в форуме можно будет сделать и только на запрете, хотя пока не вижу смысла.
В любом случаи это пока не готовый вариант и идей и планов пока полно, не хватает время.
А выше опубликованный файл был сделан исходя из манов опубликованных ПС, где поддержка данной директивы обозначена.

Ссылка на то же самое в яндекс, но не в ман, а на само сообщение.
http://webmaster.ya.ru/replies.xml?item_no=14&ncrnd=8702

Yworld_garry

#60
08 Ноябрь 2008, 00:39:50 Последнее редактирование: 08 Ноябрь 2008, 02:40:05 от garry69
Немного модифицировал файлик. С инетом траблы полные, по этому толком не смог проверить.
По этому если решите использовать, проверьте в панелях.

Для использования данного варианта я убрал из топиков ссылку с каждой мессаги в названии темы.
Для этого ищем в display.template.php
// Done with the information about the poster... on to the post itself.
И там убираем ссылку с иконки и из названия. Темки у всех разные но думаю разберётесь как убрать ссылки.
<a href=

Дальше ставим мод отдельного сообщения.
http://custom.simplemachines.org/mods/index.php?mod=541
Пока в индексе оставлены дубли мессаг (msg), по идеи их должно быть минимум. Но в любом случаи просто нужно посмотреть, что там с ролевентностью.
Вы можете оставить или доставить запрещающие правила для этого
Код
Disallow: /forum/*.msg


Может есть косяки, тестить толком не могу.

robots.txt
Код
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action


Если нужны определённые action, ставим разрешения.
Можно впринципе разрешить допустим wap2, но пока нужно с мессагами разобраться.
В общем очередной тест, может пропустил что-то, прошу дописать.
PS
Пред идущий роботс отрабатывает не плохо.

Yworld_garry

#61
12 Ноябрь 2008, 00:22:43 Последнее редактирование: 12 Ноябрь 2008, 00:47:35 от garry69
Такс, мой сайтик вернулся в яндекс и вернулся очень не плохо. Отработал пред последний роботс и частично последний(тест).
Индексация великолепная, все темки захвачены, выдаёт контент из постов и топиков в выдаче. Ни какого мусора в индексе, просто ноль мусора.
В индексе только нужное и оно отдается в поиск на ура.
Потестю последний роботс с теми изменениями, что я сделал и на этом всё. Возможно немного проверив ролевентность немного добавлю в роботс запретов. Хотя сейчас даже с тем оставленным дублем, выдаёт по унику именно топик с мессагой, а не отдельную как дубль.

Не вижу дальнейшего смысла в продолжении работы над роботс. Индексация получилась великолепная и думаю, что не в коей мере больше не отстаёт от аналогичных скриптов. Для всех кто использует данный способ, рекомендую пройтись по вашему индексу и запретить не нужное в роботс.
Выдача наглядно показывает всё что надо убрать.

PS
Если будут изменения и дополнения, опубликую в этой теме. Так же продолжаю отвечать на вопросы и по возможности помогать по данному вопросу.

Чеширский кот

Отлично, рад что получился ожидаемый результат. Теперь если можно для самых одаренных (типа меня) в программировании пошагово, что нужно сделать, если не очень трудно конечно:).
1....
2....
3....
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

на самом деЛе все есть в Топике. но когда доберусь до домА попробую написать по пунктам. с кпк писать не удобно.

Serifa

Цитата: garry69 от 08 Ноябрь 2008, 00:39:50
Для использования данного варианта я убрал из топиков ссылку с каждой мессаги в названии темы.
Для этого ищем в display.template.php
// Done with the information about the poster... on to the post itself.
И там убираем ссылку с иконки и из названия. Темки у всех разные но думаю разберётесь как убрать ссылки.
<a href=


Не поняла, чего вы убрали? Ссылки откуда? Вы имеете в виду те ссылочки, что стоят в заголовке каждого поста??
версия форума 2.1
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
Alexandra Forroll

netoya

Да это о них речь. Я у себя уже поставил этот робот но предыдущей версии, жду результатов. Кстати у себя эту ссылку не убирал, очень она мне полезна.

Serifa

Цитата: netoya от 12 Ноябрь 2008, 17:24:57
Да это о них речь. Я у себя уже поставил этот робот но предыдущей версии, жду результатов. Кстати у себя эту ссылку не убирал, очень она мне полезна.


И я об том же! Полезная ссылка, как без нее?? Да я благодаря ей смогу избавиться от лишних локаций в игре - спасибо уникальному движку СМФ!
версия форума 2.1
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
Alexandra Forroll

Yworld_garry

#67
12 Ноябрь 2008, 21:21:31 Последнее редактирование: 12 Ноябрь 2008, 21:36:51 от garry69
Если вы прочитали, то я написал, что ссылкой пока в виде эксперимента сделал. И взамен поставил мод, ссылка там на него есть.
Используйте не последний роботс, он отработал великолепно и работает у тех кто использует "красивые урлы".
Я их не использую больше, так как смысла в них нет, по моему мнению, только лишний мусор. Когда будет нормальное чпу, тогда и будут урлы человеческие.
При использовании роботс в индексе появятся все не закрытые урлы, уберите по аналогии не нужные вам.

1 Подготавливаем форум к его использованию.
В файле Themes\index.template.php
Убираем
Код
<meta name="robots" content="noindex" />

А лучше заменяем на
Код
<meta name="robots" content="index, follow" />


2 Закидываем robots.txt в корень сайта(если стоит в корне то директория /forum не нужна.
Если нужны определённые action, ставим разрешения.
Код
User-agent: *
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Allow: /forum/*sitemap
Allow: /forum/*gallery
Disallow: /forum/*topic=*.msg
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/index.php?*unread
Disallow: /forum/*sort
Disallow: /forum/index.php?*sort
Disallow: /forum/*printpage
Allow: /forum/*board=
Disallow: /forum/index.php?*wap
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/index.php?*imode
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/index.php?*new
Disallow: /forum/*.new

3Ставим вот этот мод SMF Sitemap
http://custom.simplemachines.org/mods/index.php?mod=755

4 По желанию, подстраховываемся и убераем из выдачи принт версии.
http://www.simplemachines.ru/index.php/topic,5089.msg33170.html#msg33170

5 После индексации, смотрим индекс и удаляем всё не нужное по средством роботс и по аналогии с существующим.

Использовать думаю можно и последний роботс(он более красив :) ) не удаляя ссылку из мессаги, но тогда в роботс нужно добавить
Код
Disallow: /forum/*.msg


Если будут изменения, опубликую тут. Изменения возможны, так как время у меня не так много на проверку всего, кроме роботс куча остального. Но в основном осталось отрегулировать его под себя каждому, проанализировав выдачу. Удалить или включить нужное.


PS
Не забывайте, что на выдачу( не индексацию), влияет не только роботс.

ЦитироватьДа я благодаря ей смогу избавиться от лишних локаций в игре - спасибо уникальному движку СМФ!

Не понял, можно по подробнее.

Adept

Цитата: garry69 от 12 Ноябрь 2008, 21:21:31
3Ставим вот этот мод SMF Sitemap
http://custom.simplemachines.org/mods/index.php?mod=755
Я в целом понимаю зачем нужны Sitemaps, вот хочу только уточнить принципиально ли использовать именно данный мод и почему? Просто на своем форуме я установил другой sitemap и сильно его доработал (удобство работы с выводимой информацией). Вот и не могу понять, то ли мне два ставить, то ли и мой справиться. В чем именно основной смысл применения данного мода.
Спасибо за ответ и за поднятую тему по robots.txt, на самом деле очень полезный вопрос решаете <b>garry69</b> и др. пользователи.

Yworld_garry

Использование карты сайта как составляющей индексации принципиально, чем вы её генерите не принципиально(любой скрипт, мод, сервис,...). Главное что бы ПС её ели без ошибок и в ней не было того, что запрещено в роботс, так как это ни есть гут.

Чеширский кот

Ой, спасибо:) Попробую установить, только у меня почему то не устанавливается sitemap, равно как не может обновиться сам форум. Жалко, буду другой сайтмап искать. +1 в репку в любом случае...
форум для общения людей среднего возраста www.sandoor.ru/forum/

Adept

 Если я правильно понял, то главное, чтобы выдавал sitemap в формате xml? Который необходимо зарегистрировать еще и в самом поисковике?
В моей ситуации имею sitemap.php, который генерирует в ответ на запрос от поисковика xml данные о сайте. Данный файл зарегистрирован в панелях поисковиков.
Или все же лучше поставить рекомендуемый мод и спать спокойно? Склоняюсь так и сделать, но надеюсь на ответы на вопросы в данном сообщении.

Yworld_garry

пишу с кпк по этому очень Кратко
1 да
2 да
3 не обязательно. главное корректная генерациЯ.

Serifa

Цитата: garry69 от 12 Ноябрь 2008, 21:21:31
Используйте не последний роботс, он отработал великолепно и работает у тех кто использует "красивые урлы".
Я их не использую больше, так как смысла в них нет, по моему мнению, только лишний мусор. Когда будет нормальное чпу, тогда и будут урлы человеческие.


Чего то я отстала от жизни. Что такое именно "красивые урлы"??
Цитата: garry69 от 12 Ноябрь 2008, 21:21:31
Если нужны определённые action, ставим разрешения.


Как именно это сделать? Есть у меня "определенные".
версия форума 2.1
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
Alexandra Forroll

Adept

Теперь все понятно по поводу sitemap. Огромное спасибо за помощь!

Yworld_garry

His Divine Shadow, "дружественные URL" сорри. В админке включаются,Только для Apache!
Выше писал как включать в индекс нужное.
Пример:
Allow: /forum/*sitemap

netoya

Цитата: Adept от 13 Ноябрь 2008, 12:02:36
Если я правильно понял, то главное, чтобы выдавал sitemap в формате xml? Который необходимо зарегистрировать еще и в самом поисковике?

А как его зарегистрировать?

Yworld_garry

netoya, советую не только карту, но и провести анализ по всем доступным пунктам в панелях.
http://www.google.com/webmasters/ ;  гугл
http://webmaster.yandex.ru/ ;    яндекс

Dr_Zhalnin

Скажите... если в моем форуме вообще этого robots.txt нет....Что мне ставить?? А то с ума сошел уже...от прочитанного :o

Serifa

Цитата: Dr_Zhalnin от 17 Ноябрь 2008, 17:56:55
Скажите... если в моем форуме вообще этого robots.txt нет....Что мне ставить?? А то с ума сошел уже...от прочитанного :o

Как я тебя понимаю)) У меня есть роботс старой версии какой-то, но я тоже :o
версия форума 2.1
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
Alexandra Forroll

netoya

Значит надо создать текстовый файл с данным именем и поместить его в корневую папку.

Porter

Вставил robots.txt как указан тут на первой же странице, мой форум проиндексировался  всеми поисковиками через неделю!!! Спасибо друзья!!! O0

Yworld_garry

Dr_Zhalnin,His Divine Shadow
Если соблюсти всю последовательность действий, то проблем не должно возникнуть.
1 Подготавливаем форум, заменяем  в Themes\index.template.php одну строчку. Описано в первом посте.
2 Заливаем роботс в корень сайта.
3 Добавляем карту сайта. Описано в топике.
4 Закидываем карту в панели ПС.
5 Не забываем в роботс разрешить нужные вам экшены. Описано выше.
6 Через некоторое время анализируем выдачу в ПС и если нужно редактируем роботс под себя.
7 Наслаждаемся отличной индексацией.

Обязательные пункты 1,2,5

Andrew77

#83
18 Ноябрь 2008, 22:58:45 Последнее редактирование: 19 Ноябрь 2008, 00:14:10 от garry69
Если б еще кто то помог как ошибку исправить у карты сайта
А то здесь http://www.simplemachines.ru/index.php/topic,4520.0.html никто так и не помог, к сожалению
Буду очень благодарен

----------------------отредактировал garry69--------------------------------------
В этой темке только про роботс.
Ответил тут.
http://www.simplemachines.ru/index.php/topic,4520.msg35707.html#msg35707

Yworld_garry

Спасибо всем кто использует данный метод и не забывает мне сообщать результаты.
Провалов индексации мною не у кого не замечено. Все версии отрабатывают нормально.

Ещё раз напишу, постарайтесь не проходить мимо и более внимательно отнестись к этому пункту:
Как включать в индекс нужное вам. В противном случаи этого просто не будет в индексе.
Пример:
Allow: /forum/*sitemap


PS
Прошу не обижаться всех кто обращается в асю ко мне, но сейчас я могу отвечать на ваши вопросы, только поздно вечером. Возможно ответы уже есть в этой теме. Или если вы отпишетесь тут, есть вероятность, ваш вопрос решат и помогут вам, до моего прихода на форум .

Простой

Скажите, можно ли считать эти результаты хорошими (пользуюсь вашими методами + плюс своими):
   
Дата последнего обращения робота к сайту: 30 ноября 2008, 02:48
Число загруженных страниц: 513416
ТИЦ: 325
GooglePR: 5
Яндекс Блоги: 216
Каталоги: Яндекс, DMOZ, Rambler
Страниц в индексе: 48785
Внешних ссылок на страницы сайта: 27460
Внутренних ссылок на страницы сайта: 48782
Файлы Sitemap: 1

Yworld_garry

Простой, Я бы назвал отличной и индексацией и работой. Не у многих такие результаты. И думаю работа всё же не маленькая проведена была вами. O0

Поздравляю и желаю наращивания результата и как следствие отдачи с проекта.

Простой


Солярис


Adept

garry69, настроил robots.txt как советуется в данной теме. Но вот в выдаче у меня выдает много .../forum/index.php?topic=1143.0;prev_next=next . Панель проверки robots.txt от Яндекс пишет "разрешен правилом /forum/*topic=*".
Можно ли как-то победить данные ссылки, хотя это в общем-то не так страшно, т.к. данных ссылок не очень много, хотя возможно это только пока.

netoya

#90
03 Декабрь 2008, 08:46:32 Последнее редактирование: 03 Декабрь 2008, 09:17:01 от netoya
Я у себя выключил отображение ссылок на предыдущую и следующую, но анализ робота показал, что такую ссылку бы он принял для индекса.
Вставить:
Disallow: /forum/*prev_next

Перед (очень важно):
Allow: /forum/*topic=

Отсеет ссылки на до и после.

Yworld_garry

netoya, всё правильно, спасибо. Дело в том, что я пока умышленно оставил это в индексе. Собственно если это убрать хуже не будет конечно.
Я исходил из наблюдения, что такой урл в 90% индексился в первую очередь в тех страницах, где ни один пост не попал пока в выдачу. Только заголовок или посты с предыдущих страниц. Потом вылетал из индекса, при индексации поста с этой страницы.
Но возможно вылетает не всегда и может и оставаться.
Так что удаление этого урла возможно полезно. В любом случаи, как буду уверен напишу по нему и ещё по одному.

Adept

Спасибо за помощь. У меня тоже отключено отображение ссылок на след. страницу и предыдущую, но откуда то берутся страницы. Пожалуй пока оставлю, раз эти страницы хорошо в индекс попадают.

X-tremo

Я вот почитал, но так и не понял какой robots.txt актуален на данный момент без ЧПУ?
Ткните носом, если не сложно :)

Yworld_garry

X-tremo, выбирайте любой на той странице.
http://www.simplemachines.ru/index.php/topic,5089.msg35293.html#msg35293

Но прочитать топик имеет смысл и сделать всё что описано. Практически всё есть в топике, возможны только индивидуальные настройки, но и как их делать тоже описано.
В любом случаи, если есть вопросы задавайте.

X-tremo

Код
User-agent: *
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /spon/
Disallow: /img/
Disallow: /banners/
Disallow: /gallery/
Allow: /*topic=
Allow: /*board=
Allow: /*sitemap
Disallow: /*topic=*.msg
Disallow: /*sort
Disallow: /index.php?*sort
Disallow: /*;sort=starter;desc
Disallow: /*printpage
Disallow: /index.php?*wap
Disallow: /*wap
Disallow: /*=
Disallow: /*.msg
Disallow: /index.php?*new
Disallow: /*.new
Disallow: /index.php?action=help
Disallow: /index.php?action=sendtopic
Disallow: /index.php?action=search
Disallow: /index.php?action=search2
Disallow: /index.php?action=mlist
Disallow: /index.php?action=admin
Disallow: /index.php?action=pm
Disallow: /index.php?action=post
Disallow: /index.php?action=profile
Disallow: /index.php?action=printpage
Disallow: /index.php?action=notify
Disallow: /index.php?action=recent
Disallow: /index.php?action=register
Disallow: /index.php?action=markasread
Disallow: /index.php?action=mergetopics
Disallow: /index.php?action=register
Disallow: /index.php?action=reminder
Disallow: /index.php?action=reporttm
Disallow: /index.php?action=recent
Disallow: /index.php?action=verificationcode
Disallow: /index.php?action=activate
Disallow: /index.php?action=login
Disallow: /index.php?action=login2
Disallow: /index.php?struct=on&data=on&action=dumpdb
Disallow: /index.php?board=106.0
Disallow: /index.php?action=reporttm
Disallow: /index.php?board=27.0
Disallow: /index.php/board,27.0.html

User-agent: Slurp
Crawl-delay: 150


Вот что получилось. Не знаю оптимально это или нет?

Yworld_garry

X-tremo, Вместо кучи запретов экшен, лучше поставить один на все и уже дать разрешение на нужные.
Добавьте в файл индивидуальные запреты и разрешения для вашего проекта.
Обязательно проверьте в панелях веб-мастера. Проверьте урлы вашего проекта и разрешённые/запрещённые экшены.


Пример (этот файл сейчас тестируется у меня и показал не плохие результаты, точнее ни хуже чем предшественник). Собственно это та же версия, убрано лишнее.
Код
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action


думаю там наглядно показано, как разрешить action нужный.
"дружественные URL" отключены, толку ноль, а мусора в индексе масса.

X-tremo

Урлы я тоже отключил. По поводу Экшинов, дело в том что я не знаю какие нужны, но точно знаю какиене нужны)))

Serifa

User-agent: Slurp
Crawl-delay: 150

а это что означает?
я с этими экшинами долго боролась)) в итоге решила вообще не использовать, обхожусь средствами портала
версия форума 2.1
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
Alexandra Forroll

Yworld_garry

His Divine Shadow, это ограничение Yahoo бота. иначе лезет в кучу потоков и сканит всё подряд, создавая ни кому не нужную нагрузку.

Вверх