Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 4 гостей просматривают эту тему.

lom_aka_snov

Подскажите, а как запретить к просмотру разделы, на которые ругается google:

Yworld_garry

В данном случаи закрыть форум вообще от него.
Это он показывает на разделы где описание одинаковое. Многостраничные темы и тд. Это не самое страшное, можно конечно мутить с мета тегами.

iliuxa

Доброго всем
Такая ситуация: при проверке плотности ключевых слов, (http://www.seobuilding.ru/keyword-density-analyzer.php здесь проверял ) обнаружил что больше всего индексируются слова Last, Post и Last post, а потом уже все остальное. По моему этого не должно быть. Как отключить эту индексацию в роботс?

Спасибо.

Yworld_garry

Ключевые слова в роботс не отключить, только урлы, тема тут где то была, попробуйте поискать.  Ключи и контент ограничиваются другими механизмами, noindex и тд.

iliuxa

Yworld_garry
хоть примерно намекните в каком триде?
Я так понял вы сео занимаетесь? Я хоть на правильном пути, в плане отключения этих ласт постов?

spack

Прочитал всю эту тему, вроде разобрался пока с роботсом,
но 1 вопрос всетаки есть

В ветке писалось про Disallow: /index.php$
В первом сообщении этой ветки ничего об этом нет. Поискал на форуме еще инфы насчет этого правила.
Одни пишут что надо добавить это правило в robots.txt, другие нет...
Yworld_garry, чтото посоветуете ?

з.ы. версия форума, 2.0.2
свеже инсталенная, не проиндексирован в поисковиках (точнее закрыто пока все от индексации).
Пока не разберусь с нюансами...чтобы индексировался сразу правильно.

Yworld_garry

iliuxa- отключайте, закрывайте. Собственно они не нанесут вреда для форума если будут открыты, при условии что на форуме бедет что то еще и это будет живо развиваться.

spack-  Мы имеем изначально на одном сайте:
сайт.ru
www. сайт.ru
www. сайт.ru/index.php
сайт.ru/index.php

То есть куча ненужностей и дублей, так как по факту это разные сайты для ПС.
c www или без решается редиректом 301
index.php решается роботс Disallow: /index.php$
В итоге имеем одно зеркало содержащее одну главную страницу.


Саповодцам не читать :)

spack

Цитата: Yworld_garry от 24 марта 2012, 21:44:52То есть куча ненужностей и дублей, так как по факту это разные сайты для ПС.
c www или без решается редиректом 301
А разве не достаточно что я указал главное зеркало в строчке host: ? (без www),
обязательно и 301 редирект ставить ?

Как выглядит код редиректа для всех страниц ?
Я тут нашел один, но похоже это редирект с index.php на http://ваш_сайт/

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://ваш_сайт/ [R=301,L]


Роботс у меня вот такой получился (все комменты удалил). Взят с первого поста и немного модифицировал

User-Agent: *
Allow: /*sitemap
Allow: /*arcade # эту строку удалил, в свеже инсталеном SMF 2.0.2 этого нет
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /Games/ # эту строку удалил, в свеже инсталеном SMF 2.0.2 этого нет
Disallow: /cache/ # эту добавил, после установки smf 2.0.2 имеется и такая папка
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Disallow: /index.php$ # эту добавил
Host: forum.moisite.com
Sitemap: http://forum.moisite.com/index.php?action=sitemap;xml

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-Agent: W3C-checklink
Disallow: /


з.ы. Если добавили в роботс и Disallow: /index.php$ не забываем править и код в index.template.php

Yworld_garry

Host:  это для яндекса понятно и то не всегда и не сразу как минимум.
Disallow: /index.php$  достаточно такого.

# убирает зеркало без WWW, сайт проиндексирован основным с WWW
RewriteEngine On # эта строчка добавляется если такой нет в файле
RewriteBase / # эта строчка добавляется если такой нет в файле
Options +FollowSymLinks  # эта строчка добавляется если такой нет в файле
RewriteCond %{HTTP_HOST} ^сайт\.ru$ [NC]
RewriteRule ^(.*)$ http://www.сайт.ru/$1 [R=301,L]

#Соответственно на без WWW
#RewriteCond %{HTTP_HOST} ^www\.сайтr\.ru$ [NC]
#RewriteRule ^(.*)$ http://сайт.ru/$1 [R=301,L]

maestrosite.ru

Цитата: spack от 25 марта 2012, 14:54:53
А разве не достаточно что я указал главное зеркало в строчке host: ? (без www),
обязательно и 301 редирект ставить ?

Как выглядит код редиректа для всех страниц ?
...

з.ы. Если добавили в роботс и Disallow: /index.php$ не забываем править и код в index.template.php

1. Редирект для всех страниц, robots.txt здесь не участвует:

RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.
RewriteRule ^(.*)$ http://_ваша_сайта_.ru/$1 [R=301,L,QSA]

не забывайте про QSA

2. Проставьте правильный rel="canonical" и тогда не надо лишнего в robots.txt добавлять
Если задаются вопросы по вашей проблеме, значит это нужно вам!
---
Обновления форума, разрешение конфликтов, адаптация модов, исправление ошибок - ваши предложения о сотрудничестве направляйте по адресу smf@maestrosite.ru

pehser

ЦитироватьDisallow: /*PHPSESSID
Вот как то не совсем понимаю как оно будет индексировать
взял ФФ настроил что на моем форуме не сохранять куки
теперь смотрю все сылки у меня идут с PHPSESSID
как тогда робот будет ходить по форуму и резолвить контент

maestrosite.ru

Цитата: pehser от 11 апреля 2012, 12:57:57
Вот как то не совсем понимаю как оно будет индексировать
взял ФФ настроил что на моем форуме http://forum.shop-script.org/ не сохранять куки
теперь смотрю все сылки у меня идут с PHPSESSID
как тогда робот будет ходить по форуму и резолвить контент

см. подробности Disallow: /*PHPSESSID - быть или не быть
Если задаются вопросы по вашей проблеме, значит это нужно вам!
---
Обновления форума, разрешение конфликтов, адаптация модов, исправление ошибок - ваши предложения о сотрудничестве направляйте по адресу smf@maestrosite.ru

Homosap1ens

Скажите, пожалуйста, такой вопрос:
А как указать в Robots.txt чтобы поисковиками не идексировались данные регистррирующихся людей, их страница авторизации и т.п. Заранее спасибо

Yworld_garry

Цитата: Homosap1ens от 01 мая 2012, 12:10:31А как указать в Robots.txt чтобы поисковиками не идексировались данные регистррирующихся людей, их страница авторизации и т.п.
По подробнее что именно, какие урлы или вообще мы про форум говорим( так как тут все закрыто).
А вообще так
Disallow: / тут урл или часть урла ...

Homosap1ens

Цитата: Yworld_garry от 01 мая 2012, 17:06:55По подробнее что именно, какие урлы или вообще мы про форум говорим (так как тут все закрыто).
А вообще так
Disallow: / тут урл или часть урла ...

Сейчас работаю над созданием форума SMF. Его фактически еще нет. Только тело и зарегистрирован домен.
Решил что оптимизацией нужно б заняться еще до наполнения сайта, потому занялся вопросом СЕО. Установил моды Site Map и Optimus Brave. Вот и встал вопрос с Robots.txt
Опираясь на информацию полученную в нете и с Вашего топика в частности применил вот такое содержание файла Robots.txt:
User-Agent: *
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*board
Allow: /*topic
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Disallow: /index.php$
Host: www.mysite.com.ua
Sitemap: http://www.mysite.com.ua/index.php?action=sitemap;xml

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-Agent: W3C-checklink
Disallow: /


Но когда-то давно читал что в связи с неправильным оформлением Robots.txt поисковики могут индексировать данные пользователя и следовательно могут выводить в результате поиска инфу о том или ином участнике. И вот вопрос: все ли будет нормально при вышеуказанным параметрам файла Robots.txt если смотреть с данного аспекта а также если смотреть с точки зрения СЕО в целом? Или можно что-то добавить или убрать?
Спасибо огромное заранее за помощь!

Yworld_garry

Disallow: /*action # закрывает профиль и все не нужные action
Еще стоит закрыть профиль от не зарегистрированных через админку.

Homosap1ens

Цитата: Yworld_garry от 01 мая 2012, 21:10:18
Disallow: /*action # закрывает профиль и все не нужные action
Еще стоит закрыть профиль от не зарегистрированных через админку.

1.) Тоесть профиля уже никак не проиндексируюются. Верно?
2.) И подскажите, пожалуйста, вы бы меняли что-тов Robots.txt чтобы поисковики лучше индексировали сайт?
3.) Проверил на Яндексе свой Robots.txt, пишет

Используемые секции
Строка   
1-26   
User-Agent: *
Allow: /*sitemap
...
Sitemap: http://www.bizland.com.ua/index.php?action=sitemap;xml

Это нормально?

Спасибо огромное Вам за помощь!

Yworld_garry

1 Верно
2 Файл из первого поста и проверен давно, уже сами под себя что то конкретное под проект.
3 Не понял что тут или на что ответить. Он вам показал от куда и до куда использует.

Все ок у вас.

А на второй вопрос я могу дать другой ответ. Я бы с удовольствием закрыл от индексации 50% сайтов и форумов существующих в интернете и вот тогда поисковики бы лучше индексировали.  Но это все лирика.

Homosap1ens

 :) Спасибо огромное!!! Вы здорово помогли...  O0

spack

Читал гдето(на серче кажется) что гуглобот уже не обращает внимание на User-Agent: *
и надо специально для него добавить в роботс еще и User-Agent: Googlebot
Что скажите, не наблюдаете такое?

Yworld_garry

Цитата: spack от 07 мая 2012, 13:25:19Читал гдето(на серче кажется) что гуглобот уже не обращает внимание на User-Agent: *
и надо специально для него добавить в роботс еще и User-Agent: Googlebot
Что скажите, не наблюдаете такое?
Не наблюдаю официально написанную информацию. Но вот при кривых файлах такого сколько угодно в сети. если неправильно составлен, то конечно боту без разницы на директивы и сканит все подряд или ничего.

Tema

Уважаемый Yworld_garry не могли бы вы выложить новую версию Robots.txt,так как в первом посте она явно устаревшая и наверняка есть более оптимальный вариант. Я понимаю что у каждого свои задачи и они правят файл под себя, но разрешите понадеяться на ваш вкус и опыт.

Фисташка

Лучше индивидуально создавать. Просканировать, например Xenu и на основе найденных url создать свой robots

Tema

Цитата: rustava от 12 июня 2012, 20:05:20Лучше индивидуально создавать. Просканировать, например Xenu и на основе найденных url создать свой robots
Понимаю что лучше,но во все вникать,нет ни времени ни желания. Если каждый будет все делать сам, все с голоду сдохнут.

GeorG

Установите Optimus Brave -  http://dragomano.ru/page/optimus-brave
Там можно генерировать автоматически файл robots.txt исходя из вашего форума и установленных модов.

А в шапке и так актуальная версия файла лежит.
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Tema


22kit82

Приветствую форумчан.

Столкнулся вот с какой проблемой. Может, конечно, это не проблема, но меня смущает тот факт, что все  проиндексированные гуглом картинки открываются по ссылке ведущей не на сам пост, а на страницу с последними сообщениями.

вид ссылки получается вот такой:

домен.ru/recent/картинка

Нужно ли этот пункт /recent закрыть от индексации в файле robots.txt, чтобы картинки проиндексировались по адресу реального поста.

AstaLaVista

Вот robots:

User-agent: *
Allow: /*forum
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Sitemap: http://мойсайт/index.php?action=sitemap;xml
Host: мойсайт.ru

User-agent: Slurp
Crawl-delay: 100

При проверке в панели Яндекса ссылки: http://мойсайт.ru/index.php?action=forum выдаёт ошибку
URL запрещен правилом /*action
Разве так должно быть?
P.S. Гугл ест.
Установл. моды: TinyPortal 1.0; RedirectPage; Sitemap

GeorG

Да, у вас есть такое правило:
Disallow: /*action

А зачем вам их вообще открывать?

Просто добавьте правило:
Allow: /*action=forum

После -  User-agent: *
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

arbitr

Доброго времени суток... скажите что у меня не так что гугл кучу левого проиндексировал??
User-Agent: *
Allow: /*action=forum
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Allow: /*board
Allow: /*topic
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Disallow: /index.php$
Host: http://forum-maalot.com/
Sitemap: http://forum-maalot.com/index.php?action=kitsitemap;xml

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-agent: Baiduspider
Disallow: /

User-Agent: W3C-checklink
Disallow: /

Yworld_garry

По конкретнее, что левого, примеры, у вас на форуме 28 тем.


Yworld_garry

Это скорее всего попало в индекс с самого запуска форума и уйдет. Дело в том что сам по себе роботс не запрет, а рекомендация и гугл может легко проиндексировать все что угодно. Но в основной индекс это не попадет и в выдаче не участвует. Со временем пропадет. С файлом у вас все в порядке.

Life-BEK

#733
Здравствуйте.
Помогите с роботсом.
У Меня установлен мод PrettyUrls.
Форум на папке (tibbiyot.org/forum)
Robots сгенерировал с помощью Вашего сайта - Yworld_garry  (Очень хороший конструктор, спасибо)

Allow : User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*type=rss
Allow: /forum/*action=forum
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*PHPSESSID
Sitemap:  /forum/index.php?action=kitsitemap # путь к вашей карте сайта
Host: tibbiyot.org # указать ваше главное зеркало

User-agent: Slurp # дабы не нагибал форум
Crawl-delay: 100


Yworld_garry



Yworld_garry

Сегодня возможно не смогу посмотреть что там у вас, практически весь день буду с не самой удобной штуки в сети. Или вечером или завтра гляну что у вас и отпишу как сделать если косяк.

Life-BEK

Цитата: Yworld_garry от 14 августа 2012, 10:17:58
Сегодня возможно не смогу посмотреть что там у вас, практически весь день буду с не самой удобной штуки в сети. Или вечером или завтра гляну что у вас и отпишу как сделать если косяк.
Ждемс нетерпением.
Хотель попробовать автоматический постинг через рсс на фейсбуке и твиттере, который Вы описали на этом форуме.
По-этому не хочу когда ПС зяглянут с этих сайтов, проиндексировали лишнее.

Yworld_garry

Life-BEK Не вижу у вас на сайте файл robots.txt, по этому нет возможности тестануть....

Life-BEK


Yworld_garry

Уберите пожалуйста пустую строку сверху и мои комменты. ( не критично комменты)
Про строку я писал, что просто руки не добрались её убрать из конструктора.

Life-BEK


Yworld_garry

Самая верхняя строка, просто поднимите на неё, ято бы начиналось с самого верха страницы, но это не критично, сейчас скину сюда, готовый файл. Надеюсь ничего не забуду закрыть)))

Life-BEK

Цитата: Yworld_garry от 15 августа 2012, 19:48:41Самая верхняя строка
Надеюс, Я Вас понял.
Убрал Allow : User-agent: *
а, Роботс на какой кодировке держать?

Yworld_garry

Вот этот ставьте, думаю все будет ок. Исправил и закрыл надеюсь все, если что вылезет, по аналогии. Поставите, отпишитесь, гляну.

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*type=rss
Allow: /forum/*action=forum
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*profile
Disallow: /forum/*recent
Disallow: /forum/*help
Disallow: /forum/*register
Disallow: /forum/*login
Disallow: /forum/*search
Disallow: /forum/*stats
Disallow: /forum/*groups
Disallow: /forum/*PHPSESSID
Sitemap:  http://tibbiyot.org/forum/index.php?action=kitsitemap;xml # путь к вашей карте сайта
Host: http://tibbiyot.org # указать ваше главное зеркало

User-agent: Slurp # дабы не нагибал форум
Crawl-delay: 100

Life-BEK

+1.
Большое спасибо.
Disallow: /forum/*wap
Это для того чтобы, сканировал только wap2 версию?

Yworld_garry

Цитата: Life-BEK от 15 августа 2012, 20:04:09Disallow: /forum/*wap
Что бы вообще не было мобильной в выдаче, иначе она забьет основные страницы сайта, так как будет из за своей структуры более ролевентнее, но менее информативна и тд. В общем не нужна она в выдаче.

С robots.txt все ок. Повторюсь, если увидите в выдаче что то из технических страниц, закрой те по аналогии, но уже все что может вылезти не критично. если что пишите.

Life-BEK

Цитата: Yworld_garry от 15 августа 2012, 20:09:42так как будет из за своей структуры более ролевентнее, но менее информативна и тд.
Понятно. Но вроде для мобильный версии сканирует Google Mobile? Я думал что мобильная версия сайта, показывается только если искать с мобильного, а десктоп версия через компьютер?!

У Меня раньше вообще не было роботса, вчера проанализировал странице в поиске.
Удивился, не нашел "мусора", гугл сканировал именно что нужно (без принтпайж и т.д.)
Но конечно, профили просканировал.

Yworld_garry

Хуже не будет закрыть всякий мусор, а там вылезет или нет ботам решать. Суть в том что этот файл имеет статус рекомендаций, а не 100% запрета, но боты в основном следуют ему и не сканят что попало.

Life-BEK

Цитата: Yworld_garry от 15 августа 2012, 20:09:42если увидите в выдаче что то из технических страниц, закрой те по аналогии, но уже все что может вылезти не критично. если что пишите.
Может: Disallow: /forum/admin/