Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 14 гостей просматривают эту тему.

Yworld_garry

Несколько очень частых вопросов в асю, отпишу здесь. Дабы и ибо.

1 robots.txt , не отменяет ни в коим случаи использование карты сайта, ставьте любые доступные вам скрипты такого рода.
Если ставите не мод к форуму, а сторонний скрипт, проверьте что он вам нагенерил и удалите ссылки на те разделы какие не должны быть в индексе.

2 Удаление принт версий сделано для более полной и качественной индексации контента. В индексе должен быть сами топики, а непечатные версии, без возможности работы на форуме. Собственно и куча дублей в индексе ни как не продвинет сайт.

3 Разрешить определённые модули(action), вы можете по своей необходимости.
Код: [Выделить]Allow: /__forum/*gallery
4 Директория /__forum , нужна тем у кого форум не в корне и имеет название то, что у вас.
Если форум в корне удаляем её.
Код: [Выделить]Allow: /*gallery
5 Индексация идёт и идёт вроде не плохо и та , что нужна. Но во первых пока идёт тест и выявляются более ролевентные моменты, а во вторых индексация в поисковиках не каждый день. По этому этот процесс ни одного дня.

6 Желательно запретить принт ещё и мета тегами.
http://www.simplemachines.ru/index.php/topic,5089.msg33170.html#msg33170

7 Используйте последний из опубликованных версий robots.txt

8 Работа ведётся когда позволяет время и есть что то новое в панелях ПС

9 Использование данного файла пока не получены более конкретные результаты, не является панацеей от бед не качественной индексации. Достаточно много факторов влияют на индексацию. Один не маловажный, это качественная подача форума ПС путём правильного роботс, собственно чем и занимаемся.

10 Из за достаточно большого количества дублей страниц и принт версий в индексе, после начала использования данного файла количество проиндексированных страниц уменьшиться.
Но не в коем случаи не качество проиндексированного. Из индекса постепенно пропадут именно мусорные урлы. И останется только нужный контент, уже который будет ратироваться в выдаче по ролевентности.
Процесс не одного апа, зависит от множества факторов.
Но так как на большинстве форумов контент(не названия топиков, они могут совпадать) уникальный и если форум наряду со всем имеет внешние ссылочки, это займёт не больше двух трёх апов в ПС.
На популярных форумах этот процесс проходит вообще не заметно, так как иметься сложившееся ядро пользователей.

PS
При поступлении новых вопросов буду редактировать этот пост.



Для более полной индексации начал тестировать новый роботс. :)

Подготавливаем форум к его использованию.( для первой ветки форума)
В файле Themes\index.template.php
Убираем
<meta name="robots" content="noindex" />
А лучше заменяем на
<meta name="robots" content="index, follow" />

Тем самым попробуем заставить ботов ползать по форуму не попадая в noindex не захватывая контент.

Сам robots.txt текущий 28/03/2011
Свежий в аттаче
# Google, StackRambler, Yandex, Aport - Важные боты для нас.
# К сожалению их останавливает тег noindex.
# Если вы удалили noindex коснтрукцию то это должно пригодиться.
# Для всех ботов
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php # либо тот редирект что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало

User-agent: Slurp
Crawl-delay: 100

Если решите использовать, рекомендую комменты мои удалить и естественно если это отдельный форум удалить директорию /__forum

Вот ещё гадкие боты которых можно грохнуть

# Боты вредные и не нужные
# Могут проигнорировать запрет
User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /

Некоторые форумы просто нагибает вот этот гад Twiceler, если он игнорирует запрет то прописываем в .htacceess

order allow,deny
deny from 38.99
deny from 64.1.215
deny from 208.36.144
allow from all
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Twiceler-0\.9.*$ [NC]
RewriteRule ^.* - [F]

Прошу дополнить robots.txt, исправить и тд.

Используйте всегда последнюю версию файла

Задавайте вопросы и публикуйте результаты индексации тут. Я просто физически и по объективным причинам не могу своевременно отвечать в асе.
Спасибо.

Во вложении последняя версия robots.txt Это общая версия, если используете мод отдельного сообщения и убрали ссылку из названия темы в посте, либо хотите сделать, читайте ниже как.
В верхней части разрешённые action ( по анологии открывайте нужные для вас). Иначе все закрыты.
Открытый action:
Allow: /__forum/*arcade
Пример закрытого action:
Disallow: /__forum/*printpage
Если форум стоит в корне, то директорию /__forum из файла удалите.
В этой версии закрыты от ботов rss , желающие могут открыть. На выдачу они не влияют. Просто идёт тест.
Максимальное удобство от его использования достигается при отключённых "дружественные URL" в админке форума.

Практически все возможные вопросы заданы и есть ответы в топике, читайте.
Не забываем анализировать выдачу и регулировать(добавлять, убирать) путём изменения robots.txt . Помните, что у этого файла тоже есть правила написания. Если сомневаетесь в правильности действий, обязательно спрашивайте в этом топике. По возможности буду отвечать.


Статья на Яндекс о robots.txt

Удалил не актуальные версии
robots.txt (0.47 кБ - загружено 818 раз.)
robots 01.11.09.rar (0.41 кБ - загружено 324 раз.)




Обновление robots.txt от 26.03.2015 г.

В связи с требованием гугла открытия для индексирования скриптов и стилей, обновил файл.
Для удобства управления ботами поисковых систем, файл разбит на блоки для основных ботов.

Добавлены блоки для ботов рекламных систем основных поисковиков, полное разрешение индексации. Отрегулировать под свои сайты и при необходимости закрыть нужное для вас.
На пример страницы запрещенные для размещения контекстной рекламы.

В файле две версии, для форума в директории и в корне, комментарии и лишнее удалите, включая не нужную версию robots.txt

Проверка удобства просмотра на мобильных устройствах - http://www.google.com/webmasters/tools/mobile-friendly/
Настоятельно рекомендую установить адаптивную тему оформления или вторую тему для мобильных устройств и используя модификацию перенаправлять мобильные устройства на нее.
С 20 апреля сайты не имеющие адаптивного дизайна или версии для мобильных, будут понижены в выдаче гугла.

Обсуждение мобильной версии и вариантов с модификацией http://www.simplemachines.ru/index.php?topic=17952.0


Пока вложения не работают, вот ссылочка на файл robots.txt 26/03/2015

Обновил архив 15/12/2015, в связи с новыми требованиями яндекса.

Yworld_garry

#1
Было поздно и забыл прибавить про карту сайта.

Ставим вот этот мод SMF Sitemap

Добавляем её в ПС из панелей. Обрабатывается без ошибок и в яндексе и в гугле.
И не забываем запретить индексацию к ней ботам в robots.txt
В таком виде
Disallow: /forum/index.php?action=sitemap

Не надо им там лазить и создавать лишнюю нагрузку.

Про удаление из индекса печатной версии тут писалось не раз но ещё раз напишу, дабы было по полнее. Собственно решение очевидное и написано про него много раз.

Sources/Printpage.php
fatal_lang_error(472, false);

Вставляем ниже
$context['robot_no_index'] = true;

В Printpage.template.php ищем

<meta http-equiv="Content-Type" content="text/html; charset=', $context['character_set'], '" />

Вставляем ниже
', empty($context['robot_no_index']) ? '' : '<meta name="robots" content="noindex" />', '

Либо просто вставляем, если не правили контекстные.
<meta name="robots" content="noindex" />

Так же там можно поставить ссылку на форум, в стандарте она отсутсвует

Ищем в Printpage.template.php
<head>

И ниже добавляем всё, что душе угодно, например
<a href="http://www.мой сайт.ru/">На форум</a>

Солярис

Зачем принтпейдж удалить из индекса? Не разумно это.

Yworld_garry

#3
Цитата: Солярис от 05 октября 2008, 20:08:03
Зачем принтпейдж удалить из индекса? Не разумно это.
А зачем тебе он в индексе, там должен быть контент с форума. Каждый пришедший должен иметь возможность пользоваться форумом, а не сваливать прочитавши кусок печатки.
Да и ролевентность у печатной формы выше и она просто забъёт сам форум.
Можно оставить, по желанию и наблюдать какой форум крутой раз проиндексировано так много страниц.))
В любом случаи это всего лишь рекомендации ботам и думаю если проиндексирует сайт так как надо, то и не потребуется ни каких принтпейдж, что бы видеть свою работу, а печтную форму оставим тем для кого она нужна.

Собственно это всё каждый решит для себя по желанию. Это просто роботс в котором можно менять и создавать условия какие угодно.
Удастся правильно проиндексить форум, потом можно и подумать над тем, что открыть.

Чеширский кот

Посмотрел SMF sitemap, так там до версии 1.1.5. а у меня 6.

Я если честно как то не очень дружу с роботс.txt имеется ли возможность как то пошагово расписать что делать? Если все получится, размещу на своем форуме для образования, сохранив Ваше авторство.
форум для общения людей среднего возраста www.sandoor.ru/forum/

Mavn

более полный список

stats
profile
reporttm
sort
unread
msg
dlsort
sendtopic
printpage
login
register
activate
search
help
mlist
who
reminder
verificationcode
recent
post
new
cur_topic_id
topicseen
collapse
expand
calendar
group
members
dlattach
attach
tpmod
imode
wap
rss
theme
all
prev_next


SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#6
Спасибо за список, сейчас думаю над групповыми исключениями, иначе получается не красиво и слишком много.

Цитата: egonika8m от 05 октября 2008, 21:19:40
Посмотрел SMF sitemap, так там до версии 1.1.5. а у меня 6.

Я если честно как то не очень дружу с роботс.txt имеется ли возможность как то пошагово расписать что делать? Если все получится, размещу на своем форуме для образования, сохранив Ваше авторство.
Карту ставьте и не бойтесь, подойдёт она.
Создайте текстовый файл обзовите его robots.txt и скопируйте в него то, что в первом посте. Потом закиньте в корень сайта
Не забудьте заменить в Themes\index.template.php опять же с первого поста.
Авторство сохранять в роботс не на до, так как это штука имеет определённые правила уже давно написанные и не нами. Просто попробуем их записать в нужном порядке для нас.
Напомню, что это первая версия.

Чеширский кот

Я скачал 1.3.0 там 6 файлов. Я к сожалению не программист и совершенно не понимаю что нужно сделать. Загрузить на хост и запустить install.xml?

:) Авторство я имел ввиду на своем форуме как автора метода установки robots.txt, но конечно не в самом файле.
форум для общения людей среднего возраста www.sandoor.ru/forum/

Mavn

обсуждение мода в другой теме!
все последущие сообщение не касающиеся robots.txt будут удалены
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#9
Немного переделанная и по моему улучшенная версия.

Убраны строки с запретом мобильных версий. если нужны разрешения, легко сделать по шаблону ниже.
Убраны пути в экшенах.
Это всё заменяет запрет
Disallow: /__forum/index.php?*;*

Добавлены разрешения для карты сайта в виде примера( по этому шаблону легко сделать разрешения для любых отдельных экшенов)
Allow: /__forum/index.php?action=sitemap;xml
Allow: /__forum/index.php?action=sitemap;*


Добалены правила для сайтиков с включёнными стандартными красивыми урлами в админке. (Разрешить дружественные URL)
Disallow: /__forum/index.php?*.msg
Disallow: /__forum/index.php/*.msg
Disallow: /__forum/index.php?*.new
Disallow: /__forum/index.php/*.new



Теперь закрыты все тех ссылки форума, единственно не менял список action.
Может ещё что забыл. Вспомню напишу или сделаю.
Если будите использовать не забывайте, что это ещё не окончательное решение.(хотя мне нравится)
Пока идёт тест.

Собственно сам файл.
User-agent: *
Disallow: /__forum/attachments/
Disallow: /__forum/avatars/
Disallow: /__forum/Packages/
Disallow: /__forum/Smileys/
Disallow: /__forum/Sources/
Disallow: /__forum/Themes/
Disallow: /__forum/Games/
Allow: /__forum/index.php?action=sitemap;xml
Allow: /__forum/index.php?action=sitemap;*
Disallow: /__forum/index.php?*;*
Disallow: /__forum/index.php?*.msg
Disallow: /__forum/index.php/*.msg
Disallow: /__forum/index.php?*.new
Disallow: /__forum/index.php/*.new
Disallow: /__forum/index.php?PHPSESSID
Disallow: /__forum/index.php?action=activate
Disallow: /__forum/index.php?action=admin
Disallow: /__forum/index.php?action=calendar
Disallow: /__forum/index.php?action=emailuser
Disallow: /__forum/index.php?action=findmember
Disallow: /__forum/index.php?action=help
Disallow: /__forum/index.php?action=helpadmin
Disallow: /__forum/index.php?action=login
Disallow: /__forum/index.php?action=logout
Disallow: /__forum/index.php?action=mlist
Disallow: /__forum/index.php?action=modifykarma
Disallow: /__forum/index.php?action=post
Disallow: /__forum/index.php?action=pm
Disallow: /__forum/index.php?action=printpage
Disallow: /__forum/index.php?action=profile
Disallow: /__forum/index.php?action=recent
Disallow: /__forum/index.php?action=register
Disallow: /__forum/index.php?action=reminder
Disallow: /__forum/index.php?action=search
Disallow: /__forum/index.php?action=shop
Disallow: /__forum/index.php?action=unread
Disallow: /__forum/index.php?action=unreadreplies
Disallow: /__forum/index.php?action=verificationcode
Disallow: /__forum/index.php?action=who
Disallow: /__forum/index.php?struct=on&data=on&action=dumpdb
Disallow: /__forum/index.php?action=viewkarma


Возможно что то пропустил, напишите пожалуйста.

Adept

У Яндекса есть возможность "Анализ robots.txt сайта", постоянно там проверяю все изменения в robots.txt. Так вот последний вариант предложенного robots.txt выдает такие ошибки:
Цитировать9: Allow: /forum/index.php?action=sitemap;xml    Возможно, был использован недопустимый символ
10: Allow: /forum/index.php?action=sitemap;*    Возможно, был использован недопустимый символ
11: Disallow: /forum/index.php?*;*    Возможно, был использован недопустимый символ
Да и вообще всегда в ошибки выдает, если имеется точка с запятой ";". Отсюда вопрос, нормально ли это или Яндекс найдет ошибку и перестанет отрабатывать файл полностью?

Mavn

а не проще ли использовать такую комбинацию

Disallow: /forum/*action=mlist*

На сколько мне помнится robots.txt допускает такое... если я не ошибаюсь

я конечно понимаю что все берут за основу старый robots, но может будет лучше если использовать новые сочетания ?
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#12
Adept
Это не ошибка, а предупреждение
Думаю отработает и не будет проблем, если ты там же возьмёшь линк из запрета и проверишь его. То яндекс напишет что он запрещён или разрешён. ;)

Mavn

Да собственно я ещё не добрался до этого, просто так мне было удобнее. И для тех кому нужно определённое действие в action оставить тоже нагляднее. Уберу и сокращу, продолжу группировать и извращаться.( не много инструментов и правил в robots.txt, но всё же)
С универсализацией по позже. ::)

Yworld_garry

Вот такой получился.
заркрывает все action, нет смысла огород городить. И не будет предупреждений в панели в яндексе при проверке карты.
Disallow: /forum/*=*

Должен отрабатываться при включённых или нет "дружественных урлах"
Дописал правила, но пришлось отдельно поставить правила на экшен где присутствуют разрешающие типо topic.
Disallow: /forum/*topic=*.msg

Нужные модули открывать по примеру
Allow: /forum/*sitemap

Если стоит что то из модов и имеет в урле topic= или board= И не спрятано от гостей, делаем так.
Кнопочка спасибо у меня стоит для всех видима. Но ботам не стоит давать туда лазить.
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/*printpage


User-agent: *
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Allow: /forum/*sitemap
Disallow: /forum/*topic=*.msg
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/*printpage
Allow: /forum/*board=
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/*wap2
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/*.new


Может где тупанул, пишите.

TEZZI

Вот можно вопрос, если сделать как выше написано, то будет все интексироваться? просто у меня Яндекс ни как не хочет индексировать((

Yworld_garry

Дык я всё это и затеял из за некачественной индексации яндексом и не самой лучшей гуглом.
Надеюсь поможет, но проверка к сожалению занимает не один день. Индекс в поисковиках не каждый день обновляется.

Kornak

#16
Глуповатый наверное вопрос... Брать только последнюю версию т.е. из вашего последнего поста... Или всё то что вы начиная с первого поста вставили нужно внести в 1 файл?
И ещё кое-что... У меня до этого стоял мост joomla + SMF
джумла давно снесена и форум поставлен в корень... хотелось бы из индекса убрать ссылки типа - http://blablabla.ru/index.php?option=com_smf&Itemid=27&topic=264.0
правило Disallow: /*option=com_smf* в robots.txt вставил но анализатор на яндексе по запросу приведённой выше ссылки говорит что ему правило Allow: /*topic= разрешает ссылку отработать...
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Kornak

Вопрос про ссылки от моста снят... решил добовлением правила - Disallow: /*option=com_smf&Itemid=* выше чем праввило /*topic=
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

Судя по панелям гугла и яндекса, в частности ошибки сайта и запреты. Отрабатывает нормально и появляются те что надо записи в логе ошибок и запретов. В запрещённых роботс появились те странички, что и нужны.
По индексации пока ни чего не скажу, так как я занимался удалением из ПС огромного числа страниц, попавших в индекс после теста одного модуля к сайту.
Число страниц очень большое и удаление пока в процессе но в завершающем.
Скоро наверное смогу написать по поводу индексации.

Kornak, попробуйте укоротить вашу ссылку, дабы не усложнять символами. Не все боты одинаково относятся к этому.

Чеширский кот

Вроде потихоньку начал въезжать в это дело. Сейчас проверил, форум индексируется потихоньку, но очень много "версий для печати", вот их и не надо бы, а то у ПС есть лимит на обработку информации с сайта.

Кстати что такое или кто такой: Twiceler?
форум для общения людей среднего возраста www.sandoor.ru/forum/

Чеширский кот

И еще у Яши почитал про роботс. И там приводится пример:
User-agent: Yandex
Disallow: /
Allow: /cgi-bin
Не проще ли после этого Disallow: / вставить все что не нужно? Или глупость сморозил?
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

egonika8m, Как убрать версию для печати посмотри выше.
Второе не понял.
Используй последний файл не из первого поста.
Напомню, пока идёт тест.

Kornak

Цитата: garry69 от 10 октября 2008, 20:50:20
Kornak, попробуйте укоротить вашу ссылку, дабы не усложнять символами. Не все боты одинаково относятся к этому.
Не подскажете как это сделать?
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Чеширский кот

#23
Все разобрался, со вторым то же.
Теперь заметил еще одну проблему, при поисковой выдаче не показывает кусочек текста как в ""description", только заголовок сообщения, а вместо описания идет адрес типа: Форум=>Административный=>объявления Это кстати не есть хорошо.
(правда это уже тут обсуждалось, но воз и ныне там)
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

Kornak, попробуйте, что-то типо того, я просто не знаю как выглядят твои ссылочки.
По примеру сделай.
Disallow: /*option=*Itemid=
Disallow: /*Itemid=


egonika8m, Да такая проблема имеет место быть, но думаеться мне всё это именно из за кривой индексации и при любом переходе по внутренним ссылкам топика, бот попадал в ноиндекс. И ролевентнее ни чего не видел.
Собственно есть уже некоторые положительные результаты.

Чеширский кот

Возможно и так. Ну, "garry69" на Вас смотрит вся страна:) Если грамотный роботс решит эти проблемы, то наверное изменится отношение к SMF.
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

#26
Пока рано конечно, что то говорить, но то что я вижу в индексе сейчас.
С учётом удалении кучи страниц и естественно текущей переиндексацией.(писал выше)
В индекс не появился мусор, именно топики и посты. Объективно пока по гуглу и не много , по яндуху только идёт к завершению процесс удаления и появилось мало нового, но пока не заметил не нужного мусора.
Насчёт объявлений на форуме, они не мешают индексации отдельных топиков и постов, но приклеиваются к урлам, если смотреть чистый индекс. В выдаче идёт уник.  Буду думать на выходных, как с этим и нужно ли бороться.
Сам роботс, судя по панелям отрабатывается и довольно легко им управлять в своих нуждах.

Идёт тест.

Kornak

Такой вопрос я добавил роботс позавчира... Яндекс говорит что проверил мой сайт вчера... Но ошибок не убавилось и в индексации всё ещё куча урлов которые роботс должен был прибить... Это просто он ещё не всё обработал я верно понимаю? И эффект будет не ранее чем через месяцок?
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

Kornak Нет , так быстро он не проиндексирует. И естественно ошибки не уйдут.
Я добавил раньше роботс и отработал отлично. Всё что было в ноиндекс перетекло в запрет роботс (скрин прилагаю).
Те странички, что я видел вчера во время АПА яндекса, были абсолютно теми что надо. Контент захвачен, топики захвачены, ни каких принтов и мобайл.
Есть несколько бажков, но они скорее больше влияют на индексацию в гугле и особенностях его ботов. Поправлю к выходным, они не критичны.
Несколько запретов добавлю.
Советую не забывать ставить карту сайта.

Идёт тест.

Kornak

ооп... вот сегодня ошибок резко поуменьшилось... с 6484 до 4472 в основном за счёт ноуиндекса...
И в Число загруженных страниц: стало меньше... вместо 11600 стало ~ 8657
ЗачОот...
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

По результатам последнего АПА ПС сделан новый robots.txt.
Прежний достойно отработал и в яндексе и в гугле, но есть некоторые траблы.
В основном из за не очень правильной генерации "Дружественных урлов" и как следствие наложения запретов и разрешений. Поисковики кушают сразу оба вида ссылок.
Но при запросе например в яндексе, выдаётся только одна.
По этому криминала  в этом нет, но не качественно.
В ближайшее время выложу доработанный файлик, к сожалению не каждый день АП.
Возможно дубли будут исключены совсем, надо тестировать это дело и смотреть выдачу и что будет ролевентнее.

PS
Просмотрел выдачу огромного количества форумов.
Люди, удалите из индекса принт и мобайл, толку ноль а мусора горы. ПС не жалуют дубли.
Кто удалил у себя ноиндекс, не забывайте удалить из выдачи экшен и тд, иначе просто каша в выдаче.
Лучше иметь в индексе 100 страниц с качественным контентом, чем 10000 дублей.

Yworld_garry

#31
Новая версия robots.txt

Пришлось добавить пару запретов из за некорректной генерации "Дружественных урлов".
Предыдущий отработал отлично, нет мусора в индексе все экшен кроме разрешённых закрыты(разрешаем запрещаем под себя).
В индексе пока оставлены некоторые дубли msg, тестирую что ролевентнее.
Их не много и по унику в яндексе выдаётся только одна, по этому не страшно.


robots.txt
User-agent: *
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Allow: /forum/*sitemap
Allow: /forum/*gallery
Disallow: /forum/*topic=*.msg
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/index.php?*unread
Disallow: /forum/*sort
Disallow: /forum/index.php?*sort
Disallow: /forum/*printpage
Allow: /forum/*board=
Disallow: /forum/index.php?*wap
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/index.php?*imode
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/index.php?*new
Disallow: /forum/*.new


Если заметили явный бажок отписывайтесь пожалуйста, есть мысли, тоже прошу.
Странные и не нужные боты перестали лазить где попало(судя по стату) и грузить просто так сервак. Ограничения с яху снял, он теперь не больше 16 потоков сидит и только в топиках.
У кого есть ещё инфа по не нужным ботам пишите.

Идёт тест.

Mavn

Кстати а ты не пробовал использовать такую комбинацию

Disallow: /forum/*sort*

чтобы не дублировать мне интересно будет ли достаточно одного такого правила чтобы не писать дублей для seo урлов и обычных
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#33
Mavn, Пробовал. Но к сожалению из не корректной генерации "Дружесвенных урлов" , ПС хавют оба.
Точнее из за вот этого
Allow: /forum/*topic=
Пришлось ввести из индексации обоих вариантов урлов.
Я после очередного АП в ПС постораюсь по другим условиям оптимизировать.
Хотели ЧПУ нормальное написать, но по последним подвижкам в ПС вроде как и не надо уже.
Да и если писать то одними правилами не обойдёшься, серваки не у всех сильные.
Вобщем после АП, сделаю по красивее роботс.

Mavn

SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

Mavn, спасибо. Надо покапать по глубже, как время появится.

maratix.ru

Цитата: garry69 от 18 октября 2008, 20:32:12
9 Использование данного файла пока не получены более конкретные результаты, не является панацеей от бед не качественной индексации. Достаточно много факторов влияют на индексацию. Один не маловажный, это качественная подача форума ПС путём правильного роботс, собственно чем и занимаемся.

Будем ждать результатов я так понимаю. Дай бог чтобы нам повезло
www.HochuDom.ru - Живи в мечте!!!

Чеширский кот

А я получил свои результы эксперимента.

Яша отлично проиндексировал и заголовки и текст и второй текст за 2 недели. Если искомый текст внутри топика выдает в снипете, если в заголовке только заголовок. Правда при переходе по ссылке попадаешь не на форум, а на отдельную страницу, но там я ставил Back to forum (как писал здесь garry69) и вроде нормально.

Гугля чуть хуже. Не индексирует текст внутри топика, только заголовки и причем при переходе по ссылке попадаешь на свой форум, только не в сообщение а в раздел, в котором этот топик. (я разачарован в гугле).

Пока такой результат 2,5 недельного эксперимента. Относительно robots.txt а может быть проще запретить все, оставив только то что нужно индексировать?
У меня форум на субдомене+не в корневой папке а папке /talk/ мне в robots прописывать весь путь или только /talk/...?
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

#38
Я к сожалению пока по яндексу могу смотреть только в апы, так как удалял кучу страниц и он показывает индекс мне пока только в апы.
Но то, что я вижу мне тоже понравилось. Практически именно то, что и нужно.
В гугле у меня тоже не плохо и индексирует именно контент и естественно заголовки. Возможно новый вариант роботс сработал у меня.
Так что и в гугле меня устраивает.
Немного разгребусь с делами и проанализирую ролевентность и тд., сделаю новый роботс. Попробую это дело привести в более красивый и оптимизированный вид.
По крайней мере сейчас видно, что индексация таким образом качественнее в разы. Мусора в выдаче практически ноль. Уники идут именно туда куда надо по запросам и траф подростает( в моем случаи с гугла, в яндексе будет переиндексация).
Разберёмся с роботс, будем ковырять чпу, так как из просмотренных мной модов ни чего не возбудило. Хотя на основе этого можно сделать нечто удобоваримое.

egonika8m,
Запретим всё что не нужно, но по позже, некоторые урлы нужны для анализа. Сейчас практически весь мусор запрещён, оставлена часть мессаг.
Прописывай /talk/...?
И спасибо тебе, за помощь в тесте, процесс не быстрый и важна любая инфа.

Yworld_garry

По сегодняшнему АП яндекса анализ будет по позже. Пока устраивает. Хотелось бы что бы писали не только мне в асю но и в этом топике.
Но мне главное получение инфы и в принципе все равно как.

Сейчас интересует вопрос:
Контент уникальный захвачен, топики индексируются. По унику переходит в нужное место в топике( при условии установки мода отдельного сообщения, оставлен в индексе) либо просто по контенту.

Насколько раздражает или может не нравиться вам приклеенная новость к заголовку проиндексированного урла?
Уточню, это в основном проявляется если смотреть только урлы без контента. Или возможно есть мысли по поводу не правильной индексации из за этого.


Kornak

У меня кажись вообще всё плохо...
Вот содержание robots.txt (Форум ранее стоял в папке forum и была интеграция с джумлой оттуда собственно строчки Disallow: /forum* и Disallow: /*option=com_smf&Itemid=* )
User-agent: *
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/
Allow: /*sitemap
Disallow: /*topic=*.msg
Disallow: /*option=com_smf&Itemid=*
Disallow: /*modifykarma
Disallow: /*unread
Disallow: /*printpage
Allow: /*board=
Allow: /*topic=
Allow: /*=forum
Disallow: /*wap
Disallow: /*wap2
Disallow: /*imode
Disallow: /*=
Disallow: /*.msg
Disallow: /*.new
Disallow: /*.new
Disallow: /forum*


В аттаче то что получилось :( 3 страницы в индексе это ИМХО не очень хорошо... Правда вот ошибки с 6000 упали до 300... Это конечно хорошо... Но без стрнаниц в индексе это грусно... Почти уверен что это я что то криво косо сделал... Если да то ПЛЗ ткните носом...
И ещё одно смущает... Если яндекс и находит мой сайт... то он в качестве заголовка выводит его адрес а не title  :-[


Рнебят а чО с аттачами такое??? oO ?
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

Периндексация я так понимаю идёт своим путем без применения редиректа из старой директории.
Яндекс удалил сайт из индекса, но ещё не включил новый. А так как удалялся и сайт, собственно для него это новый сайт на прежнем домене. По этому и нет его в индексе, только осталась ссылка. По хорошему надо было указать яндексу какие каталоги или урлы удаляете, так он быстрее переиндексирует и удаляет из кеша не нужное.
Попробуйте поставить последний роботс, ещё не идеал, но отрабатывает не плохо.
Если не появиться в индексе после следующего апа, пишите платону, скорее всего поправят сразу.
Вы не единичны, таких проблем после изменения директории избегает один из десяти.

Считаю причина вылета из индекса именно связана с периндексацией. Попробуйте следить за сайтом чем то вроде "сайт аудитор".
темболее если вы следите за темами на серче, в яндексе в последнее время куча глюков, возможно то что вы видите сейчас, это кеш скушанный пару месяцев назад.

Kornak

можно поподробнее? я оптимизацией подобного рода недавно занялся...
Вы пишите что стоило яндексу что то как то показать... каким образом не посоветуете?
И что за сайт аудитор подскажите плз... :)
В идеале стукните в аську... А то вы мне что то не отвечаете... :(
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

Что касается удаления каталогов или урлов из индекса. Для более качественного и правильного результата(дабы сайт не вылетел из индекса), пользуемся вот этой формой http://webmaster.yandex.ru/delurl.xml
Не забываем отметить именно то, что удаляем, урл или каталог.
Соответственно если удаляем кучу урлов не существующих, то все заносить не надо, только общий.
Иногда если не воспользоваться данной формой, бот увидев 404 ошибку может просто выкинуть всё нужное из базы.
И придётся ждать переиндексацию, но в вашем случаи, я думаю по любому весь контент что был в корне выдавал 404 и соответственно новый ещё просто не в базе яндекса.
Если долго не будет появляться, пишите платону.
индексация и переиндексация вашего сайта - addurl@yandex.ru

Сайт аудитор, пользоваться просто, скачайте и все увидите. http://www.site-auditor.ru/

Kornak

спс... один плюс сегодня уже фигакнул... Ещё 1 завтра заброшу ;)
© Kornak 2004-2015

۞ Скутерклуб - http://proscooters.ru/

Yworld_garry

Спасибо всем за информацию скинутую мне в асю по последнему Апу. Так как объём её не маленький и это займёт некоторое время, постараюсь как можно быстрее обработать и выдать результат. Некоторым уже ответил, но физически просто не смогу так быстро отсеять нужное и относящиеся к роботс, от других факторов.
Прошу учесть, что некоторые моменты индексации/переиндексации ваших проектов связаны с факторами не зависящими от данного файла robots.txt .

Убедительная просьба, читайте пожалуйста первый пост этой темки, в нём я веду небольшой фак.
Задавайте вопросы и публикуйте результаты индексации тут. Я просто физически и по объективным причинам не могу своевременно отвечать в асе.
Спасибо.

mdm

Весь форум кроме главной запрещен в файле robots.txt это только у меня или у кого то еще есть? ставил последнюю версию файла.

LepRiKonS

mdm,
Garry сейчас ответить не может (точнее зайти с кпк не получается), скиньте ему url форума в личку, как придет - ответит.

Yworld_garry

LepRiKonS, спасибо.
mdm я готов посмотреть, пишите в асю или в личку.

Yworld_garry

Хотел уже подготовить новый и практически окончательный вариант, но к сожалению на моем тестовом сайте некоторые траблы с яндексом.
Из за недавнего теста одного модуля к сайту вылетел из индекса на пару апов.
Собственно осталось проверить всего несколько моментов. Но вынуждено затягивается.
Новая версия будет идти в "комплекте", с некоторыми изменениями в файлах форума(не значительных, не затрагивающих ни чего судьбоносного).

PS
Просто не готов выложить не до конца проверенный вариант.

Для тех кто уже использует.
Если у вас форум стоит как action , не забывайте разрешить его в роботс.