Оптимизация индексирования форума

Автор Солярис, 07 октября 2009, 10:41:15

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Солярис

Всем доброго времени суток!

Начало обсуждения в этой теме: http://www.simplemachines.ru/index.php/topic,5089.msg54780.html#msg54780

Убрал из роботс.тхт оператор Allow: / из-за которого Яндекс индексировал ненужные страницы форума.

По прошествии где-то недели наблюдаю следующую картину, что проиндексированных Яндексом страниц на форуме стало меньше где-то наполовину от реально существующего количества сообщений.

Так вот интересует следующее. Это новая переиндексация сайта (в связи с убранным оператором) или это что-то иное?!
Или уже стоит по этому поводу волноваться?

Заранее спасибо.

Yworld_garry

Так как у вас стоит свой и не самый простой роботс, о чем я уже писал.
Без анализа не понятно, что и как разрешено было Allow: /
Возможно теперь пол форума просто закрыто для ботов.
Так как было убрано разрешение из robots.txt, скорее всего расширился запрет на открытые до этого урлы.
Вариантов конечно несколько, но думаю стоит проверить в панели вебмастера. Посмотреть какие урлы закрыты и тд.

Просто так из-за оператора Allow: / яндекс не будет индексить то, что не нужно. Значит неправильно стоял или не в том месте. Возможно наложение правил и тд.

Солярис

Раздел для Яндекса выглядет в роботс.тхт следующим образом
User-agent: Yandex
Allow: /index.php?action=sitemap
Allow: /catalog/
Disallow: /vkb/
Disallow: /rec/
Disallow: /go.php
Disallow: /attachments/
Disallow: /avatars/
Disallow: /awards/
Disallow: /dumper/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /xhtml-editor/
Disallow: /index.php?action=activate
Disallow: /index.php?action=admin
Disallow: /index.php?action=bookmarks
Disallow: /index.php?action=calendar
Disallow: /index.php?action=emailuser
Disallow: /index.php?action=findmember
Disallow: /index.php?action=help
Disallow: /index.php?action=helpadmin
Disallow: /index.php?action=login
Disallow: /index.php?action=login2
Disallow: /index.php?action=logout
Disallow: /index.php?action=mergetopics
Disallow: /index.php?action=mlist
Disallow: /index.php?action=modifykarma
Disallow: /index.php?action=notify
Disallow: /index.php?action=pm
Disallow: /index.php?action=post
Disallow: /index.php?action=profile
Disallow: /index.php?action=recent
Disallow: /index.php?action=register
Disallow: /index.php?action=reminder
Disallow: /index.php?action=search
Disallow: /index.php?action=search2
Disallow: /index.php?action=unread
Disallow: /index.php?action=unreadreplies
Disallow: /index.php?action=verificationcode
Disallow: /index.php?action=who
Disallow: /index.php?action=printpage
Disallow: /*imode*
Disallow: /*wap*
Disallow: /*wap2*
Disallow: /index.php?struct=on&data=on&action=dumpdb
Disallow: /*search*
Disallow: /poisk.html
Disallow: /gopoisk.html
Disallow: /gopoisk.html*
Disallow: /index.php?action=dog-oferta
Host: www.yuristyonline.ru
Sitemap: http://www.yuristyonline.ru/index.php?action=sitemap;xml


Вроде бы, запрещено для индексации именно то, что и не должно индексироваться.
Разве не так?!

Yworld_garry

Стоит проверить в панели весь файл, не только блок яндекса. Скопировать туда полностью все строки и проверить.

Солярис

Я загружаю в Вебмастере весь роботс.
Яндекс сам пишет, что использует только относящиеся к нему строки. То есть - именно те, которые я привел выше.
29-82: User-agent: Yandex
Allow: /index.php?action=sitemap
...
Sitemap: http://www.yuristyonline.ru/index.php?action=sitemap;xml
137-137: Sitemap: http://www.yuristyonline.ru/index.php?action=sitemap;xml


Yworld_garry

#5
В общем так, в личку мне скиньте урлы которые в индексе и те что вылетели.
Если есть целые разделы вылетевшие, ту да же.
Ну и всё что считаете нужным проверить.
В связи с введением в скором времени нового мощного инструмента по ранжированию сайтов в яндексе, правила игры стали на несколько порядков суровее.
Посмотрю ваш проект по пристальнее, на предмет всяких фильтров от ПС.
Так же что разрешал убранный оператор, а лучше именно тот роботс в котором он присутствовал.

Солярис

Yworld_garry, благодарю за помощь.
Но я не представляю, как Вам скинуть в личку проиндексированные ссылки?! Это ведь тысячи и тысячи различных ссылок.

Что касается оператора, то он разрешал ранее все индексировать. То есть он имел вид: Allow: /
И плюс то, что указано выше - запрещено к индексации. Никаких дополнительных изменений в роботс.тхт не было.

Солярис

Еще вот, что подметил.
Есть страницы, которые непроиндексированы еще с 22 сентября сего года?!

По какому алгоритму бот Яндекса индексирует страницы применительно к периодичности (по времени) подобной индексации?

Макар

Цитата: Солярис от 07 октября 2009, 19:58:54
Но я не представляю, как Вам скинуть в личку проиндексированные ссылки?! Это ведь тысячи и тысячи различных ссылок.

сохраните их из панели вебмастера яши в хлс или csv  файл на ваш комп
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Солярис

Цитата: Makar от 07 октября 2009, 20:16:22
сохраните их из панели вебмастера яши в хлс или csv  файл на ваш комп
Кстати, я это пытался сделать. Но открыть я Экселе у меня не получилось в связи с большим объемо какой-то ячейки в этом файле.

Yworld_garry

Цитата: Солярис от 07 октября 2009, 20:14:46
Еще вот, что подметил.
Есть страницы, которые непроиндексированы еще с 22 сентября сего года?!

По какому алгоритму бот Яндекса индексирует страницы применительно к периодичности (по времени) подобной индексации?
Это не срок давности, возможно по каким то причинам он не пускает странички в основной индекс.
Алгоритма как такового нет, точнее он индексирует  последовательно, с момента появления новой инфы. Но вот включать в индекс или нет решают сложные алгоритмы. К сожалению о которых можно только догадываться. До чего то доходим опытным путём, что то яндекс выкидывает на обсуждение.
В любом случаи, всё привязывается к его лицензии, пункты которой он трактует всегда в свою пользу knuppel

А вообще посмотрите логи апача, на предмет бота яндекса. Сожрал он или нет эти темки.

Солярис

Yworld_garry, большое спасибо за подробные ответы в личке. :)