Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

flatciz

Цитата: Yworld_garry от 12 ноября 2008, 00:22:43
Такс, мой сайтик вернулся в яндекс и вернулся очень не плохо. Отработал пред последний роботс и частично последний(тест).
Индексация великолепная, все темки захвачены, выдаёт контент из постов и топиков в выдаче. Ни какого мусора в индексе, просто ноль мусора.
В индексе только нужное и оно отдается в поиск на ура.
Потестю последний роботс с теми изменениями, что я сделал и на этом всё. Возможно немного проверив ролевентность немного добавлю в роботс запретов. Хотя сейчас даже с тем оставленным дублем, выдаёт по унику именно топик с мессагой, а не отдельную как дубль.

Не вижу дальнейшего смысла в продолжении работы над роботс. Индексация получилась великолепная и думаю, что не в коей мере больше не отстаёт от аналогичных скриптов. Для всех кто использует данный способ, рекомендую пройтись по вашему индексу и запретить не нужное в роботс.
Выдача наглядно показывает всё что надо убрать.

PS
Если будут изменения и дополнения, опубликую в этой теме. Так же продолжаю отвечать на вопросы и по возможности помогать по данному вопросу.

огромное спасибо!!!
все сделал...все ок!
Один вопросик только...мод поставит, его надо как-то или где-то настраивать дополнительно?

Mavn

Yworld_garry
значение Crawl-delay лучше выставить 100-120 свыше 120 на сколько мне помнится о вообще перестает сканить сайт.
при значении 100 яху вполне приемлемо сканить не создавая особую нагрузку на сервак. Сканер mail.ru быстрее сайт нагнет чем yahoo
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

flatcizОдин вопросик только...мод поставит, его надо как-то или где-то настраивать дополнительно?
Честное слово, ни чего не понял.
Если вы про роботс, то настраивать не надо, подготовить нужно сам форум изменением в одном файле.
Выше писал как.
Если вы про карту сайта, то там просто ставите мод и в админке в его настройках отмечаете нужное.

Mavn, я вообще убрал ограничение от yahoo, не нравиться ему видимо запреты в роботс и он стал сканить приемлемо, не больше 50 потоков.
А mail.ru согласен злой товарищ.

netoya

Возник вопрос:
Форум у меня тематический, автомобильной направленности, и думаю, что раздел кофейня, где как ни странно, больше всего сообщений, не тематического характера. Можно ли средствами робота исключить данный раздел из индекса или даже несколько таких разделов?
forum/index.php?board=3.0
Может лучше реализовать другим способом не средствами robots.txt?

Yworld_garry

netoya, можно конечно и роботс, прописать там запрет на те урлы которые не нужны.
Но посоветовал бы просто закрыть тему от гостей. Если не хотите иметь в индексе не тематику, то и не нужно этого открывать гостям/ботам. А пользователи всегда смогут выплеснуть поток сознания в этой категории и вам не придётся уже переживать перешёл бот туда по какой нибудь кривой ссылки из глубин форума или из вне.

wulker

Попробовал установить Sitemap через админку (версия 1.1.7 форума) пишет что несовместим с данной версией форума. Стал изменять вручную, дошел до sourcedir/Admin.php, указанный строчек не находит. Что посоветуете сделать?

Простой

ЦитироватьЧто посоветуете сделать?

Скачать версию smf_sitemap_1.2.2.tar.gz для первой ветки форума (для второй ветки нужно пользоваться 1.3.0), затем в поле "Manual Install Instructions for SMF" выбрать 1.1.7 и нажать submit. Читать инструкцию и устанавливать.

Serifa

Я, вроде бы, все сделала, кроме установки Sitemap - Яндекса пока ни разу за хвост не поймала, не заходит.
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Yworld_garry

#108
Простой, спасибо.
His Divine Shadow, если всё правильно и не закрыто, то должен индексить. Посмотрите по логам или просто проанализируйте последние темки за неделю по яндуху.



PS
Первый пост обновлён, добавлена для удобства во вложение последняя версия и написано небольшое описание.

wulker

Цитата: Простой от 14 января 2009, 04:28:08
Скачать версию smf_sitemap_1.2.2.tar.gz для первой ветки форума (для второй ветки нужно пользоваться 1.3.0), затем в поле "Manual Install Instructions for SMF" выбрать 1.1.7 и нажать submit. Читать инструкцию и устанавливать.
Сделал как Вы сказали, есть ошибка. При нажатии на ссылку Sitemap выдает сообщение:

You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '' at line 6
File: /home/poets/public_html/forum/Sources/Sitemap.php
Line: 40

Yworld_garry

wulker, все вопросы по другим модам и в частности по карте в другую тему.
Отпишитесь по траблам с картой в темку соответствующую, карта сайта уже обсуждается на форуме.
Отставляю Ваши посты в этой теме, для возможности копирования Вами в новую. После создания вами новой темы удалю.

Scrolz

как вставить этот мета тег на главную страницу?
<meta name='yandex-verification' content='6267242cef2eb7d8' />

Yworld_garry

Scrolz, там все теги, по аналогии. Или подтвердите текстовым файлом.
Themes\index.template.php

Прошу в этой теме только по роботс. Создаем новые темки по другим проблемам или ищем существующие обсуждения.

Scrolz

текстовым не получается, пишет неудалось загрузить файл(я его уже куда только не копировал).
В какую папку роботс закидывать?

Yworld_garry


Scrolz

У меня SMF 2.0 Beta 4 и мод SMF Sitemap не подходит((( Есть еще моды?

shturmans

#116
после настройки роботса натравил на  свой сайт сайтмап-генератор www.xml-sitemaps.com, который в том числе проиндексировал и форум по адресу ввв.сайт.ру/форум и вывалил в список кучу мусорных ссылок, которые по идее роботс запрещал,
типа
*****/forum/index.php?board=3.0;sort=last_post


Или он игнорирует роботс.тхт в своей работе или.....??

UP создал роботс, полностью запрещающий путь к форуму-после этого создался сайтмап только для сайта, форум проигнорирован, так что дело таки именно в роботсе


ЗЫ мод SMF Sitemap создает все верно и красиво, но есесно только для форума, а мне нужен красивый сайтмап для ВСЕГО сайта (сайт+форум)

ЗЫ2  использую по умолчанию следующий роботс
Цитировать
User-agent: *

Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Allow: /forum/*sitemap
Allow: /forum/*gallery
Disallow: /forum/*topic=*.msg
Disallow: /forum/*modifykarma
Disallow: /forum/*unread
Disallow: /forum/index.php?*unread
Disallow: /forum/*sort
Disallow: /forum/index.php?*sort
Disallow: /forum/*printpage
Allow: /forum/*board=
Disallow: /forum/index.php?*wap
Allow: /forum/*topic=
Disallow: /forum/*wap
Disallow: /forum/index.php?*imode
Disallow: /forum/*imode
Disallow: /forum/*=
Disallow: /forum/*.msg
Disallow: /forum/index.php?*new
Disallow: /forum/*.new

User-agent: Slurp
Crawl-delay: 100


Mavn

в этом генераторе свой список исключений там отдельно есть поле Exclude URLs: туда и заносишь то что индексироваться не должно в этой теме я выкладывал список блокировок так что можешь полистать посмотреть
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

shturmans, если со списком исключений не выйдет, то можно засунуть две карты поисковикам и будет всё красиво. Это разрешено и работает.

Простой

более того это рекомендовано гуглом: отдельные сайтмапы для форума, сайта, вап-сайтов и т.д.

BIOHAZARD

#120
а я вот решил свой генератор прикрутить к smf 1.1.7 :о)

как говорится, если хочешь, чтобы что-то было сделано хорошо, сделай это сам

генерит ссылки из базы данных smf_
вроде всё работает, если крон прикрутить, то вообще красота будет

PS: хотя и RewriteRule ^sitemap\.(txt|xml)$ sitemap.php тоже неплохо работает :о)
Мои моды:
  • RedirectPage
  • Counters
  • CustomSearch
  • SypexDumper
   адаптирую темы    1.1.хx<=>2.0задавая вопросы, старайтесь сразу указывать конечную цель, предполагаемый Вами путь не обязательно окажется самым коротким

Любые моды на заказ

shturmans

Цитата: Простой от 17 января 2009, 09:36:29
более того это рекомендовано гуглом: отдельные сайтмапы для форума, сайта, вап-сайтов и т.д.
так и делаю -  сначала генерю сайтмап на форуме, потом генерю для корневого сайта(заблокировав форум),
получается два красивеньких файлика :)

Scrolz

При попытке добавить в гогл site map ошибка
URL, запрещенный файлом robots.txt
При попытке получения доступа к вашему файлу Sitemap возникла ошибка. Убедитесь в том, что Sitemap соответствует нашим правилам и к нему можно получить доступ в указанном местоположении, а затем выполните повторную отправку.

С robots.txt удалил эту строку Disallow: /index.php?action=sitemap
Пробовал добавить allow: /index.php?action=sitemap
Всё равно ту же ошибку пишет

shturmans

гугла обновляет файл роботс примерно раз в сутки, потому если чтото в нем изменить - то конфиг блокировок изменится спустя время, а до этого будет блочить согласно старому варианту роботса

ЦитироватьDisallow: /forum/index.php?*;*
как раз блокирует доступ до файла сайтмап, сгенереного модом по ссылке
forum/index.php?action=sitemap;xml

Yworld_garry

Scrolz, по этому я и прикрепил к первому сообщению рабочий файл и небольшое описание дал.
При его использовании работает всё что разрешено и не работает то что запрещено.
Редактируем для своих экшенов либо добавляем те разрешения что там не даны. Что то ещё тестируется, что то просто посчитал не нужным. Возможно вы сможете добавить туду, нужное для всех. Тогда отписывайтесь.
Примеры как разрешать и запрещать дал в описании.

Disallow: /forum/index.php?*;*

Имеет ошибку синтаксиса. И по факту бесполезен. В последнем роботс всё корректно. Только подогнать под себя.

Максимальное удобство от его использования достигается при отключённых "дружественные URL" в админке форума.

Serifa

Яндекса был всего один раз. В основном приходят с Виндовс Лайф (80%), Гугля, MSN, а юзеры - по ссылкам с каких-то левых сайтов (я про такие даже не слышала), плюс с сообщества бесплатных форумов Борда. Это я посмотрела статистику, созданную на сервере.

И еще кто-то усиленно скачивает что-то с сайта. Чего уж там скачивать, инфа у нас весьма специфическая. Форум у нас для узкого круга, можно сказать.
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Yworld_garry

His Divine Shadow, скиньте в личку урлы проекта. Попробую по анализировать завтра вечерком.

Searcher

Ребят! Начитался про этот роботс.тхт, форум запущен совсем недавно, пользователей пока совсем -совсем мало.
Как пользоваться этим роботом? Что то не  понял куда эти топы прописывать?
или обьясните, плиз, ил киньте ссылку где рассказано. Спасибо.

Yworld_garry

ЦитироватьНачитался про этот роботс.тхт, форум запущен совсем недавно,
Searcher, потерялся я и не знаю что и ответить.

0 Подготавливаем форум(описано в первых постах)
1 Закидываем в корень сайта.(написано в первых постах)
2 Как и что нужно сделать (первые посты)
3 Прочитайте ещё раз дабы не было ошибок.
5 Просто не знаю что ещё написать, всё в топике и очень подробно.

Отвечу на конкретные вопросы по индексации или персональной настройки под ваш проект.
Хотя это тоже описано. Но понимаю что дело это не для всех простое, по этому готов по возможности помогать.
Читайте пожалуйста топик, всевозможные вопросы уже обсуждались и практически всё описано, не вижу смысла копировать ещё раз.

По конкретным проектам стучите мне в асю, готов в свободное время помочь и провести анализ.

shturmans

а есть ли точная инфа о том как поисковики относятся к allow конструкциям в роботе ?

Yworld_garry

shturmans, прочитайте мануалы те что дают ПС. В частности основные поисковые системы. Вопрос этот уже закрыт давно. Все крупные системы поддерживают allow. Яндекс в том числе и довольно давно.
Вот ссылка на ответ в этом топике.
http://www.simplemachines.ru/index.php/topic,5089.msg34867.html#msg34867
Вот ссылка на ман
http://help.yandex.ru/webmaster/?id=996567#996573

В гугле есть аналогичные, можно найти через панель веб мастера.
Проверить синтаксис можно в панелях как в яндексе, так и в гугле. Наглядно всё будет видно. Понимают отлично без проблем. Индексируют именно то что описано в роботс.

Captain Fizz

#131
Чтобы в выдаче поисковиков не появлялись урлы с сессиями, в robots.txt надо добавить
Disallow: /*PHPSESSID=

Кроме того, для запрета дублей отсортированных топиков:
Disallow: /*sort=

Понимают гугль и яндекс.

djbob2000

Такой вопросец, стоит у меня в корне сайт на joostina, у нее в robots.txt прописано такое:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/


И в директории /forum стоит форум SMF 1.1.7. Я так понимаю что файл robots.txt у них должен быть общий. Куда мне что дописывать? Тут без разницы, по алфавиту, без алфавита? Может сначала Allow, потом Disallow... Короче непонятно что куда, написал сам, что тут неправильно?


User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Allow: /forum/*sitemap
Allow: /forum/*arcade
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/

User-agent: Slurp
Crawl-delay: 100

Yworld_garry

Правильность проверяем в панелях ПС, там есть такая возможность. Вводим содержание своего файла и проверяем урлы которые закрыты и открыты.
лучше делать сначала разрешения потом запреты. Но если делаете индивидуальные разрешения на конкретные урлы, то проверьте. Иначе могут быть наложения и работать не будет.
Для наглядности составления я и прекрепил к первому посту роботс. Качаем и делаем по примеру.
Но порядок должен быть логичным по отношению к каталогам.
Сначала всё относящиеся к сайту, потом к форуму.
djbob2000, вам нужно навести порядок в файле. Всё относящиеся к сайту поставить выше, форум в низ.
Captain Fizz, сессии можно конечно и отрубить таким способом. Но знак "=" не нужен. Это по желанию.
sort, в роботсе вырублен.
Качайте последнюю версию и работайте с ней. В первом посте.

И обязательно читайте топик. Практически все вопросы обсуждались. Не забывайте, что это общая версия и настройки по себя(если таковые есть) нужно сделать.
Пример
У вас стоит мод блогов. Тогда нужно добавить в файл
Allow: /forum/*блог


gash

Скажите, пожалуйста, если мы убираем дубли страниц и принт версии для поискового бота, не снижает ли это Google PR, который также зависит и от количества внутренней перелинковки сайта?

Yworld_garry

gash, нет не уменьшает. Вопервых гугл более правильнро относиться к SMF не жели яндекс и боле менее правильно индексирует.
Что в свою очередь исключает принты ролевентнее топиков.
Ну и как правильно вы заметили "дубли". Так вот они наоборот снижают ваши показатели в ПС.
Да и тут вообще ни при чем внутренняя перелинковка, ну просто вообще. Да и кто муже не количество , а качество и структура. Этого на форуме хоть отбавляй.

И по большому счёту на форуме получить постоянный и стабильный пр для страниц отличной от парочки основных, практически не реально.
А для сапа продавцов по любому обнуление ПР и вылет из яндекса. Срубить пару баксов и убить проект. А так как на форумах очень не охотно покупают или скажем не очень за дорого, то обычно увешивают не проверяя всем что сапа подкинет, всяким дерьмом и спамными ссылками( ссылками с сайтов раскручиваемых ссылками и застуканных ПС). В итоге по любому санкции ПС.
И не забывайте, что ни ТИЦ ни ПР не влияют на выдачу.

Если ссылки не продавать, то ПР не самый нужный показатель. Точнее просто не нужный.

Captain Fizz

Цитата: Yworld_garry от 04 февраля 2009, 22:28:40
...И не забывайте, что ни ТИЦ ни ПР не влияют на выдачу.

Если ссылки не продавать, то ПР не самый нужный показатель. Точнее просто не нужный.

ПР еще как влияет на выдачу, можно сказать, что его влияние один из основных факторов ранжирования сайтов, правда ПР не в каноническом определении, а более видоизмененный и сложный, но его влияние от этого не уменьшается.

А поскольку из доступных пузомерок для сайтов имеются только Тиц и ПР, то волей-неволей только по этим параметрам приходится оценивать сайты на биржах.

ТИЦ на выдачу в поиске не влияет, а влияет только на ранжирование в яндекс.каталоге.

Yworld_garry

#137
Captain Fizz, всё правильно, но в данном случаи я не видел необходимости расписывать трастовость(TrustRank), ролевентность страницы и тд. Так же о внутренней оптимизации.  То-есть при прочих условиях и в совокупности конечно влияет.
Страница имеющая больший PR в выдаче будет выше. И естественно внутри домена ранжирование основывается тоже на практически тех же принципах. Но повторюсь не в тупую выше, а при совокупности составляющих.

Я ответил на конкретный вопрос, собственно весь ответ относился именно к мусору в выдаче и его влиянию и тд.
Да и тема поднятая вами реально не вместиться в рамки данного топика и для тех кому она интересна и развивается проект в направлении СДЛ, то думаю посвятит время изучению всего выше перечисленного. Благо материала в сети достаточно.

И ещё один момент, форум это немного другое и моё мнение , что всё же поднятие форума( как отдельного проекта) вещь интересная но очень не простая. И ТИЦ и ПР, ну абсолютно не те показатели которые нужны для поднятия. И заморачиваться на довольно не простое получение стабильных результатов на страницах форума. Считаю ошибкой. Нужно конечно иметь несколько не плохих беков не спорю. Что для получения 2 достаточно.
Достаточно хорошо проиндексировать форум, при этом конечно имея действительно форум, а не голимый копипаст и клон разных новостей и тд.
Если будет создано ядро форума из пользователей, тогда и ПР придёт и рекламодатели.
В общем об этом можно долго говорить и расписывать механизмы. Но в принципе мы с вами ответили на вопрос и на несколько следующих.

PS
Проверил бегло показатели серча по гуглу. Видимо гугл что то опять придумал. Что то не все получается в выдаче по весу ПР.  А может уже ночь и я просто сплю. Будет время провентилирую этот вопрос. В любом случаи вам спасибо за уточнение, возможно мне надо было расписать более подробно про этот показатель.

gash

Немного запутался в версиях роботс из первого поста.
Какая версия корректно работает: вложенный файл или код в тексте первого поста?
и
Disallow: /index.php?action=sitemap
Disallow: /forum/index.php?*;*
- это нужно или создает лишь трудности при индексации, не понял?!

И еще вопрос, как правильней прописать в роботс путь к сайтмэпу:
Sitemap: http://___mysite.ru/sitemap.xml
Sitemap: http://___mysite.ru/forum/index.php?action=sitemap;xml
Или
Allow: /sitemap.php
Allow: /forum/index.php?action=sitemap
(отдельно для сайта и форума установлен модуль sitemap)
Заранее спасибо за пояснение!

Yworld_garry

1 Последняя во вложении.
2 Там нет такого.
3 Наиболее правильное решение иметь две карты.
ЦитироватьДиректива Sitemap.

Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все), примеры:

User-agent: Yandex
Allow: /
Sitemap: http://______mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://______mysite.ru/site_structure/my_sitemaps2.xml

или

User-agent: Yandex
Allow: /

User-agent: *
Disallow: /

Sitemap: http://______mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://______mysite.ru/site_structure/my_sitemaps2.xml

Не забываем добавлять карты  в панели веб мастера в яндексе и гугле.

gash

Вот, что у меня получилось. Сделал всю предподготовку из 1го и 2го поста. Установлен Sitemap SMF (Allow: /forum/*sitemap – этой строки достаточно для индексации форума по Sitemap SMF?!). И нужно ли исключать папки и файлы из списка, если у меня их вообще нет, например /Games/ или *wap? Влияют ли лишние запреты на скорость обработки ботами?

User-agent: *
Sitemap: http:// ___mysite.ru/sitemap.xml
#здесь запреты
#на папки
#моего сайта
#и т.д.
#.....

Allow: /forum/*sitemap
Allow: /forum/*arcade
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action

User-agent: Yandex
Host: ___mysite.ru

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /



Постарался выдержать иерархии дерева каталоги и первые идут разрешения, затем запреты. Ошибок я не наделал? %)

Yworld_garry

Allow: /forum/*sitemap  достаточно для разрешения индексировать. Добавить стоит в панели ПС.
Лишние запреты/разрешения лучше убирать. Хотя не криминал. На скорость не влияют.
Скорость индексации зависит в большей степени от вашей работы с/над проектом.
В роботс мы пытаемся представить эту работу в боле менее удобном для ПС виде. И получить качественную индексацию.

gash

Цитата: Yworld_garry от 06 февраля 2009, 16:47:21
Allow: /forum/*sitemap  достаточно для разрешения индексировать. Добавить стоит в панели ПС.
Лишние запреты/разрешения лучше убирать. Хотя не криминал. На скорость не влияют.
Скорость индексации зависит в большей степени от вашей работы с/над проектом.
В роботс мы пытаемся представить эту работу в боле менее удобном для ПС виде. И получить качественную индексацию.
+1 спасибо

Dipytat

Цитата: gash от 04 февраля 2009, 22:15:32
Скажите, пожалуйста, если мы убираем дубли страниц и принт версии для поискового бота, не снижает ли это Google PR, который также зависит и от количества внутренней перелинковки сайта?
ИМХО, не зависит

Captain Fizz

Цитата: gash от 05 февраля 2009, 18:08:45
Постарался выдержать иерархии дерева каталоги и первые идут разрешения, затем запреты. Ошибок я не наделал? %)

Надеюсь ты в курсе, что если есть секция для яндекса
User-agent: Yandex
Host: ______mysite.ru


То он обрабатывает только ее, а на все остальные кладет с прибором :) Остальные секции будут яндексом проигнорированы, в том числе и те, которые начинаются с User-agent: *. Сомневающихся в этом отправляю в яндекс.инструменты для вебмастеров.

Там же (как и инструментах для вебмастеров от гугля) вы можете создать свой роботс.тхт и проверить в нем все что нужно разрешить и запретить индексировать.


Если кому интересен мой роботс.тхт, вот он:
User-agent: *
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /go.php
Disallow: /index.php?action=profile
Disallow: /index.php?action=help
Disallow: /index.php?action=printpage
Disallow: /index.php?action=post
Disallow: /index.php?action=post2
Disallow: /index.php?action=search
Disallow: /index.php?action=search2
Disallow: /index.php?action=login
Disallow: /index.php?action=login2
Disallow: /index.php?action=register
Disallow: /index.php?action=register2
Disallow: /index.php?action=sendtopic
Disallow: /index.php?action=unread
Disallow: /index.php?action=viewsmfile
Disallow: /index.php?action=mlist
Disallow: /index.php?action=admin
Disallow: /index.php?action=pm
Disallow: /index.php?action=markasread
Disallow: /index.php?action=notify
Disallow: /index.php?action=stats
Disallow: /index.php?action=recent
Disallow: /index.php?action=mergetopics
Disallow: /index.php?action=mlist
Disallow: /index.php?action=reminder
Disallow: /index.php?action=activate
Disallow: /index.php?action=verificationcode
Disallow: /*PHPSESSID=
Disallow: /*sort=
Host: форум.мойсайт.ру         # Здесь указываете адрес своего главного зеркала
Crawl-delay: 100


ХМЛ карты сайта я добавлял также через панель для вебмастеров, описывать их в роботс.тхт считаю ненужным.

Yworld_garry

Captain Fizz, альтернатива любая хороша. Но от использования в таком виде я отказался по ряду причин которые либо описаны выше либо очевидны.
Во первых в вашем варианте все дубли мессаг и мобильные версии попадают в индекс и получаем мусор.
Во вторых не вижу смысла городить огород из Disallow: и потом вспоминать или удивляться в выдаче всё ли закрыто. Проще закрыть все и уже открывать то что нужно.
В третьих ваш вариант тестировался выше по топику и не раз. И самый удобный на мой взгляд я выложил в первом посте. Он даёт отличные результаты. Гораздо меньше головной боли с регулированием выдачи.
Но опять же кому как удобнее.

gash , да не посмотрел я на то, что у вас под секцией запретов.
Вот это:
User-agent: Yandex
Host: ______mysite.ru
Замените на это, без пробела после основного блока:
Host: ______mysite.ru


Captain Fizz

Yworld_garry: ну я как бы не настаиваю на своем варианте,.. скорее так, для сравнения.

На самом деле у меня в индексе только странички с board и topic, все остальное успешно закрыто от индексации и никаких других дублей нет, в том числе нет принт-версий. Мобильные версии и линки на них отсутствуют на форуме, поскольку вырезаны в коде.

Весь роботс тщательно выверялся, проверялся и наблюдался через панели для вебмастеров.

shturmans

решил повыпендриваться с таким роботом:

ЦитироватьSitemap: /forum/index.php?action=sitemap;xml
Disallow: /forum/index.php?*.msg
Disallow: /forum/index.php?*.new
Disallow: /forum/index.php?theme
Disallow: /forum/archive.php
Disallow: /forum/index.php?*;*
Allow: /forum/*topic=
Allow: /forum/*board=
Disallow: /forum/*=*

ну и папочки позакрывал ненужные

яндекс поругался на точку с запятой, но в режиме теста что надо - поубивал. подожду индексации.

Yworld_garry

shturmans, По выпендриваться-экспериментировать полезно. Собственно так и рождается истина.
Не за бывайте главное. Что засунуть в индекс очень легко, вот от туда удалить и привести к нормальному виду гораздо сложнее.
Советую ещё раз пройтись по урлам сайта из панели, в частности тест роботс. Проверьте всё ли закрыто и не влетите ли вы в индекс с миллионом страниц, а потом посчитав ваш сайт мягко выражаясь странным, ПС выкинет из выдачи. Самое главное обратите внимание на не нужные экшен. Да и всё таки не стоит нарушать синтаксис. Сами же написали что он ругается. Значит есть вероятность что в какой-то момент он будет игнорировать ваши строки.
Проверять нужно как в яндексе, так и в гугле.

shturmans

имел в виду что только яндекс на ";" ругался - гугла с восторгом молчала. Погоняв по актионам и по постам\топикам с сортировкой и прочими атрибутами получалось что все что с "="и ";" напрочь режется.

это убирает мессаги
Disallow: /forum/index.php?*.msg
Disallow: /forum/index.php?*.new

это убирает вызов топиков с атрибутами
Disallow: /forum/index.php?*;*

это выводит топики и рубрики
Allow: /forum/*topic=
Allow: /forum/*board=

это банит все остальное
Disallow: /forum/*=*

Остается открытм вопрос - нуждается ли такая строка
Sitemap: http://******/forum/index.php?action=sitemap;xml
в подкреплении такой строкой
Allow: /forum/*sitemap

очень хочу проникнуться дзеном в минимализме  angel