Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 5 гостей просматривают эту тему.

Yworld_garry

У вас стоит какой то мод ЧПУ и соответственно возможны всякие сюрпризы. По этому смотрите что там у вас с правилами, что конфликтует. Есть там какие то косяки, на глаз.
Во первых вы просите посмотреть и даете скрины урлов. Врят ли у кого то возникнет желание набирать всю строку по скрину и проверять что там с параметрами и тд.
Или нужно лазить по форуму и вылавливать эти урлы, потом проверять и тд.

alexvod

Ларчик просто открывался. Ответ Платона

ЦитироватьЗдравствуйте, Алексей!

Рассмотрим на примере страницы http:///profile/id37432968/?area=sho...5s4krssa027i02

Этому адресу соответствуют два правила: "Allow: /*rss" и "Disallow: /profile/"

"Allow: /*rss" стоит выше, соответственно оно имеет больший приоритет, и страница считается разрешенной для индексирования.

И действительно, во всех проиндексированных адресах есть rss

/profile/?area=summary;u=384;PHPSESSID=7hi7im449kpi5s4krssa027i02
/profile/?area=statistics;u=475;PHPSESSID=7hi7im449kpi5s4krssa027i02
/profile/Anastasiya.Martinova/?area=showposts;sa=attach;PHPSESSID=7hi7im449kpi5s4krssa027i02

Проблема решена. Всем спасибо

dimongalant

Самое главное  Allow: /__forum/*gallery должно быть всегда в начале , а иначе нет смысла
Бывает что очень удобно заказать через интернет секс игрушки, вот тогда придёт на помощь сайтинтим магазин Эротик сити секс шоп легко купить вибратор женские вибраторы

ST

Вебмастер Гугла в разделе Sitemap пишет:

ЦитироватьURL, запрещенный файлом robots.txt
При попытке получения доступа к вашему файлу Sitemap возникла ошибка. Убедитесь в том, что Sitemap соответствует нашим правилам и к нему можно получить доступ в указанном местоположении, а затем выполните повторную отправку.

Роботс такой:

ЦитироватьUser-agent: *
Allow: /*topic
Allow: /*sitemap
Allow: /*album
Allow: /*forum
Allow: /*rss
Allow: /*media
Allow: /*mgallery
Allow: /*board
Disallow: /attachments/
Disallow: /avatars/
Disallow: /cache/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /sis/
Disallow: /mgal_data/
Disallow: /Other/
Disallow: /foto/
Disallow: /katalog/
Disallow: /*action
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php$
Disallow: /go.php

User-agent: slurp
Crawl-delay: 1

User-agent: Twiceler
User-agent: Baiduspider
User-agent: W3C-checklink
Disallow: /

Sitemap: http://www.teplos.net/index.php?action=sitemap;xml

Что не так?
-

Yworld_garry

Карта должна идти слитно с блоком для ботов. Проверить в панели ПС

User-agent: *
Allow: /*topic
Allow: /*sitemap
Allow: /*album
Allow: /*forum
Allow: /*rss
Allow: /*media
Allow: /*mgallery
Allow: /*board
Disallow: /attachments/
Disallow: /avatars/
Disallow: /cache/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /sis/
Disallow: /mgal_data/
Disallow: /Other/
Disallow: /foto/
Disallow: /katalog/
Disallow: /*action
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php$
Disallow: /go.php
Sitemap: http://www.teplos.net/index.php?action=sitemap;xml

User-agent: slurp
Crawl-delay: 1

User-agent: Twiceler
User-agent: Baiduspider
User-agent: W3C-checklink
Disallow: /


ST

Спасибо, попробую. Что удивительно, ранее гугл на это не реагировал. А яндекс на это не ругается вовсе.
-

Yworld_garry

Не все ошибки сразу отображаются в панелях.

ST

Повторно отправил sitemap, гугл вроде схавал.
-

Beer

Хочу запретить индексацию нескольких тем так:

Disallow: /forum/index.php/board,3.0*
Disallow: /forum/index.php/topic,1635.0*


Все гуд - проверка в панели ЯД: запрещен правилом /forum/*.msg*

Но, это только в том случае, если я уберу строку:

Allow: /*topic

Которая из "Первая версия robots.txt"

Как мне правильно запретить к индексации определенные темы или топики?

alexvod

Цитата: Beer от 15 ноября 2011, 14:56:04Allow: /*topic
А какой смысл писать это в роботсе? Ведь тогда все остальные инструкции (типа Disallow: /*.msg) теряют смысл

Beer

Disallow: /forum/*.msg

Меня смущает - это же заголовок сообщения в теме и одновременно ссылка на сообщение. Почему его запрещаем?

Yworld_garry

Покажите где Allow: /*topic  в файле из первого поста.

Disallow: /*.msg  # закрывает дубли именно сообщений, заголовок есть на странице в незакрытом виде.
либо у вас будут одинаковые посты по разным адресам. А ссылка на сообщение это для юзеров и удобства их, а не индекса кучи дублей ПС.

Фисташка

Мой robots для версии SMF 1.11, используется SMF Media Gallery 2.0.5, включено стандартное ЧПУ. Проверен в течении года, дублей не обнаружено, в поиске то, что нужно:

User-agent: *
Allow: /sitemap.xml
Allow: /index.php?action=sitemap;xml
Allow: /index.php?type=rss;action=.xml
Allow: /*rss
Allow: /*feed
Allow: /img/
Allow: /*mgallery*sa*item*id
Allow: /*mgallery*sa*media*id
Allow: /*mgallery*sa*media*id*preview
Allow: /MGalleryItem.php?id=*
Allow: /index.php?action=mgallery$
Disallow: /*mgallery*sa*media*id*thumb
Disallow: /*mgallery*sa*report*type*item*id
Disallow: /*mgallery*sa*item*id*desc
Disallow: /*mgallery*sa*item*id*sort
Disallow: /*mgallery*item*asc
Disallow: /*mgallery*nw*start
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /cache/
Disallow: /chat/
Disallow: /Packages/
Disallow: /shoutBox/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /mgal_data/
Disallow: /*Themes
Disallow: /*?
Disallow: /*printpage
Disallow: /*action
Disallow: /index.php?action=sitemap
Disallow: /*go.php
Disallow: /*all
Disallow: /*.msg
Disallow: /*.new
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*wap2
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*PHPSESSID
User-agent: Slurp
Crawl-delay: 100
User-agent: META
Crawl-delay: 100
User-agent: Twiceler
Disallow: /
User-agent: W3C-checklink
Disallow: /
User-Agent: Webalta, DISCo Pump, Wget, WebZIP, Teleport Pro, WebSnake, Offline Explorer, Web-By-Mail, Teleport Pro/1.29, Scooter-W3-1.0
Disallow: /
User-agent: Yandex
Allow: /sitemap/xml
Allow: /index.php?action=sitemap;xml
Allow: /index.php?type=rss;action=.xml
Allow: /*rss
Allow: /*feed
Allow: /img/
Allow: /*mgallery*media*preview
Disallow: /*mgallery*media*thumb
Disallow: /*mgallery*item*desc
Disallow: /*mgallery*item*asc
Disallow: /*mgallery*report
Disallow: /*mgallery*sort
Allow: /*mgallery*item
Allow: /*mgallery*media
Allow: /MGalleryItem.php?id=*
Disallow: /*mgallery*sa
Disallow: /*mgallery*nw
Disallow: /*mgallery*asc
Disallow: /*mgallery*fw
Disallow: /*profile
Allow: /*mgallery
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /cache/
Disallow: /chat/
Disallow: /Packages/
Disallow: /shoutBox/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /mgal_data/
Disallow: /*Themes
Disallow: /*?
Disallow: /*printpage
Disallow: /*action
Disallow: /index.php?action=sitemap
Disallow: /*go.php
Disallow: /*all
Disallow: /*.msg
Disallow: /*.new
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*wap2
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*PHPSESSID
Host: site.ru
Sitemap: http://site.ru/sitemap.xml


Или, такой для мода SimpleSEF. Проверен только в панеле вебмастера гугла и яндекса. Ссылки имеют вид:
http://site.ru/gotovim-vmeste/narezka-na-stol-2141.0.html => для тем
http://site.ru/mgallery/sa,item/id,325/ => для галереи

User-agent: *
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /board
Disallow: /cache/
Disallow: /chat/
Disallow: /contact/
Disallow: /dlattach/
Disallow: /index.php
Disallow: /findmember/
Disallow: /go.php
Disallow: /help/
Disallow: /imode
Disallow: /login
Disallow: /mgal_data/
Disallow: /Packages/
Disallow: /printpage
Disallow: /profile
Disallow: /recent
Disallow: /register
Disallow: /reminder
Disallow: /rules/
Disallow: /shoutBox/
Disallow: /sitemap/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /topic
Disallow: /*.msg
Disallow: /*asc
Disallow: /*bigicon
Disallow: /*comment
Disallow: /*desc
Disallow: /*fw
Disallow: /*icon
Disallow: /*MGalleryItem.php
Disallow: /*next
Disallow: /*num_replies
Disallow: /*PHPSESSID
Disallow: /*prev
Disallow: /*preview
Disallow: /*report
Disallow: /*rss
Disallow: /*search
Disallow: /*smgtaghelp
Disallow: /*sort
Disallow: /*start
Disallow: /*stats
Disallow: /*Themes
Disallow: /*thumb
Disallow: /*quote
Disallow: /*wap
Disallow: /*wap2
Host: site.ru
Sitemap: http://site.ru/sitemap/xml

Laonda93

Всё утро не могу разобраться с проблемой:
SMF 2.0.1
Во втором посте темы ссылка на скачку плагина, но он не подходит под 2.0.1
Советуют воспользоваться эмуляцией, эмуляция срабатывает только для 2.0 RC4
При дальнейшей установке возникают ошибки(прикрепил скриншот).

Просьба не ругаться и не посылать в гугл, там я провёл по меньшей мере 3 часа и облазил даже несколько англоязычных форумах. Почти везде, где описана проблема тому кто спросил никто не отвечает, а потом он сам пишет "ура решил проблему", как решил все молчат.

Возможно есть способ подружить Xmap с SMF ? У меня сайт на джумле 1.7?

Буду благодарен если тыкнете носом в ТОЧНЫЙ ответ на мой вопрос, либо ответите, либо предложите альтернативу.



GeorG

Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Laonda93

Не на столько хорошо знаю англ, что бы адекватно понять столько текста =\
Из статьи понял лишь то, что надо в ручную устанавливать мод и переписывать код.
Верно?

Более простого пути нет? Без убийства 24ех часов+ ?

GeorG

Цитата: Laonda93 от 23 ноября 2011, 10:16:00Верно?
Да.

Цитата: Laonda93 от 23 ноября 2011, 10:16:00Более простого пути нет? Без убийства 24ех часов+ ?
Есть, заказать установку за деньги :)
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Laonda93

ЦитироватьЕсть, заказать установку за деньги
У кого, чтоб без развода и сколько стоит?

tekseo

Цитата: rustava от 23 ноября 2011, 02:18:56
Мой robots для версии SMF 1.11, используется SMF Media Gallery 2.0.5, включено стандартное ЧПУ. Проверен в течении года, дублей не обнаружено, в поиске то, что нужно:

User-agent: *
Allow: /sitemap.xml
Allow: /index.php?action=sitemap;xml
Allow: /index.php?type=rss;action=.xml
Allow: /*rss
Allow: /*feed
Allow: /img/
Allow: /*mgallery*sa*item*id
Allow: /*mgallery*sa*media*id
Allow: /*mgallery*sa*media*id*preview
Allow: /MGalleryItem.php?id=*
Allow: /index.php?action=mgallery$
Disallow: /*mgallery*sa*media*id*thumb
Disallow: /*mgallery*sa*report*type*item*id
Disallow: /*mgallery*sa*item*id*desc
Disallow: /*mgallery*sa*item*id*sort
Disallow: /*mgallery*item*asc
Disallow: /*mgallery*nw*start
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /cache/
Disallow: /chat/
Disallow: /Packages/
Disallow: /shoutBox/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /mgal_data/
Disallow: /*Themes
Disallow: /*?
Disallow: /*printpage
Disallow: /*action
Disallow: /index.php?action=sitemap
Disallow: /*go.php
Disallow: /*all
Disallow: /*.msg
Disallow: /*.new
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*wap2
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*PHPSESSID
User-agent: Slurp
Crawl-delay: 100
User-agent: META
Crawl-delay: 100
User-agent: Twiceler
Disallow: /
User-agent: W3C-checklink
Disallow: /
User-Agent: Webalta, DISCo Pump, Wget, WebZIP, Teleport Pro, WebSnake, Offline Explorer, Web-By-Mail, Teleport Pro/1.29, Scooter-W3-1.0
Disallow: /
User-agent: Yandex
Allow: /sitemap/xml
Allow: /index.php?action=sitemap;xml
Allow: /index.php?type=rss;action=.xml
Allow: /*rss
Allow: /*feed
Allow: /img/
Allow: /*mgallery*media*preview
Disallow: /*mgallery*media*thumb
Disallow: /*mgallery*item*desc
Disallow: /*mgallery*item*asc
Disallow: /*mgallery*report
Disallow: /*mgallery*sort
Allow: /*mgallery*item
Allow: /*mgallery*media
Allow: /MGalleryItem.php?id=*
Disallow: /*mgallery*sa
Disallow: /*mgallery*nw
Disallow: /*mgallery*asc
Disallow: /*mgallery*fw
Disallow: /*profile
Allow: /*mgallery
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /cache/
Disallow: /chat/
Disallow: /Packages/
Disallow: /shoutBox/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /mgal_data/
Disallow: /*Themes
Disallow: /*?
Disallow: /*printpage
Disallow: /*action
Disallow: /index.php?action=sitemap
Disallow: /*go.php
Disallow: /*all
Disallow: /*.msg
Disallow: /*.new
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*wap2
Disallow: /*imode
Disallow: /*prev_next
Disallow: /*PHPSESSID
Host: site.ru
Sitemap: http://site.ru/sitemap.xml


Или, такой для мода SimpleSEF. Проверен только в панеле вебмастера гугла и яндекса. Ссылки имеют вид:
http://site.ru/gotovim-vmeste/narezka-na-stol-2141.0.html => для тем
http://site.ru/mgallery/sa,item/id,325/ => для галереи

User-agent: *
Disallow: /attachments/
Disallow: /avatars/
Disallow: /avs_usr/
Disallow: /board
Disallow: /cache/
Disallow: /chat/
Disallow: /contact/
Disallow: /dlattach/
Disallow: /index.php
Disallow: /findmember/
Disallow: /go.php
Disallow: /help/
Disallow: /imode
Disallow: /login
Disallow: /mgal_data/
Disallow: /Packages/
Disallow: /printpage
Disallow: /profile
Disallow: /recent
Disallow: /register
Disallow: /reminder
Disallow: /rules/
Disallow: /shoutBox/
Disallow: /sitemap/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /topic
Disallow: /*.msg
Disallow: /*asc
Disallow: /*bigicon
Disallow: /*comment
Disallow: /*desc
Disallow: /*fw
Disallow: /*icon
Disallow: /*MGalleryItem.php
Disallow: /*next
Disallow: /*num_replies
Disallow: /*PHPSESSID
Disallow: /*prev
Disallow: /*preview
Disallow: /*report
Disallow: /*rss
Disallow: /*search
Disallow: /*smgtaghelp
Disallow: /*sort
Disallow: /*start
Disallow: /*stats
Disallow: /*Themes
Disallow: /*thumb
Disallow: /*quote
Disallow: /*wap
Disallow: /*wap2
Host: site.ru
Sitemap: http://site.ru/sitemap/xml


Скажите, для 2,01 данная версия robots подойдёт?

nightwolf

tekseo+1 тоже интересует вопрос.
Сейчас изучил веб.мастер свой и понял, что форум моего сайта не индексируется, а там не мало страниц. Здесь прочитал и поменял Noindex, как указано в начале темы.В веб.мастере как раз пишется, что из-за noindex не индексировался. Теперь со следующем апом они исчезнут из исключенных страниц и появятся в поиске?

Второй вопрос общий по поводу robots.txt . Я плохо разбираюсь в его настройке и надеюсь вы сможете мне помочь понять:
-robots.txt может быть только один!?(в корневой папке)
-мой роботикс sc2wolf.ru/robots.txt. Правильно ли я сделал?
-если один роботс, то настройки для форума мне нужно вставить в этот файл к списку disallow/allow или после того, как закончатся для сайта?
-заметил в вебмастер 90 страниц имеют неверный формат.Ошибка по разделам component/  Я перехожу по любой ссылки и попадаю в окно сохранения. Смотрю файл 1-2 кб без формата(неизвестный). Я думаю, это может загруженные файлы на сайт проиндексировались?Нужно ли здесь что-то настраивать?

p.s.Всех заранее благодарю за понимание.

Фисташка


Солярис

Уважаемые!

Обнаружил через панель Вебмастера в Яндексе, что вот эти директивы:
Disallow: /*.new
Disallow: /*msg
Disallow: /*sort
Disallow: /*imode
Disallow: /*wap
Disallow: /*topicseen
Disallow: /*prev_next

Для Яндекса не работают. При проверке адресов, содержащих такие строчки Яндекс указывает, что они разрешены для индексации.
То есть получается, что надо ставить и в конце этих директив звездочку. Только при таком написании идет запрет на индексацию подобных адресов.

Что думаете по этому поводу?

digger®

Цитата: Солярис от 02 декабря 2011, 17:52:37
Уважаемые!

Обнаружил через панель Вебмастера в Яндексе, что вот эти директивы:
Disallow: /*.new
Disallow: /*msg
Disallow: /*sort
Disallow: /*imode
Disallow: /*wap
Disallow: /*topicseen
Disallow: /*prev_next

Для Яндекса не работают. При проверке адресов, содержащих такие строчки Яндекс указывает, что они разрешены для индексации.
То есть получается, что надо ставить и в конце этих директив звездочку. Только при таком написании идет запрет на индексацию подобных адресов.

Что думаете по этому поводу?

А Яндексу не достаточно, что на этих страницах есть <link rel="canonical" href="http://myforum/index.php?topic=xxx" /> ?

Yworld_garry

#673
Цитата: nightwolf от 02 декабря 2011, 06:32:10
tekseo+1 тоже интересует вопрос.
Сейчас изучил веб.мастер свой и понял, что форум моего сайта не индексируется, а там не мало страниц. Здесь прочитал и поменял Noindex, как указано в начале темы.В веб.мастере как раз пишется, что из-за noindex не индексировался. Теперь со следующем апом они исчезнут из исключенных страниц и появятся в поиске?

Второй вопрос общий по поводу robots.txt . Я плохо разбираюсь в его настройке и надеюсь вы сможете мне помочь понять:
-robots.txt может быть только один!?(в корневой папке)
-мой роботикс sc2wolf.ru/robots.txt. Правильно ли я сделал?
-если один роботс, то настройки для форума мне нужно вставить в этот файл к списку disallow/allow или после того, как закончатся для сайта?
-заметил в вебмастер 90 страниц имеют неверный формат.Ошибка по разделам component/  Я перехожу по любой ссылки и попадаю в окно сохранения. Смотрю файл 1-2 кб без формата(неизвестный). Я думаю, это может загруженные файлы на сайт проиндексировались?Нужно ли здесь что-то настраивать?

p.s.Всех заранее благодарю за понимание.
1. Не обязательно что со следующим
2. Да один
3. После сайта
4. Не знаю что у вас генерит сайт, но если такие страницы не нужны, блокируйте их в роботс или другим способом

Цитата: rustava от 02 декабря 2011, 12:09:06Скажите, для 2,01 данная версия robots подойдёт?

нет
Если у вас не поменялось что то коренным образом, то изменения минимальны

Цитата: Солярис от 02 декабря 2011, 17:52:37Для Яндекса не работают. При проверке адресов, содержащих такие строчки Яндекс указывает, что они разрешены для индексации.
Если вы про форум в подписи, то вам нужно весь роботс проверить. Там не так все в прямую надо добавлять. С логикой там сложно, я бы сказал очень не простой у вас там файлик.
Разрешения и запреты нужно расставить логично.

Цитата: digger от 02 декабря 2011, 18:05:58А Яндексу не достаточно, что на этих страницах есть <link rel="canonical" href="http://myforum/index.php?topic=xxx" /> ?
По идее должно хватать и по правилу директивы и тому что яндекс заявил.
Но на практике промахивается именно по форуму. Хотя есть и с другими скриптами. Особенно при живом общении, думаю именно дело в частом обновлении страниц или как то так.

slow

Ребзя, посмотрите пожалуйста опытным взглядом: такой роботс подойдет для форума с порталом Simple Portal?
User-agent: *
Allow: /*index.php?action=forum
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*printpage
Disallow: /index.php?*wap
Disallow: /*wap
Disallow: /*.msg
Disallow: /*sort               
Disallow: /index.php?action=help                 
Disallow: /index.php?action=profile                 
Disallow: /index.php?action=mlist                 
Disallow: /index.php?action=admin                 
Disallow: /index.php?action=pm                 
Disallow: /index.php?action=notify                 
Disallow: /index.php?action=recent                 
Disallow: /index.php?action=mergetopics                 
Disallow: /index.php?action=printpage
Disallow: /index.php?action=reminder
Disallow: /index.php?action=verificationcode
Disallow: /index.php?action=help
Disallow: /index.php?action=login
Disallow: /index.php?action=login2
Disallow: /index.php?action=register
Disallow: /index.php?action=post
Disallow: /index.php?action=search
Disallow: /index.php?action=search2
Disallow: /index.php?action=stats;
Disallow: /index.php?action=activate;
Disallow: /index.php?action=calendar;
Disallow: /index.php?action=showawards;
Sitemap: http://мойфорум/sitemap.xml

Yworld_garry

Ребзя посмотрела, отправила к первому посту темы

iliuxa

Доброго всем!
Итак есть проблема такого типа: при заргузке sitemap в google выдает следующее

URL, запрещенный файлом robots.txt
При попытке получения доступа к вашему файлу Sitemap возникла ошибка. Убедитесь в том, что Sitemap соответствует нашим правилам и к нему можно получить доступ в указанном местоположении, а затем выполните повторную отправку.


содержание роботс

User-agent: *
Allow: /*sitemap
Allow: /*forum
Allow: /*board
Allow: /*topic
Disallow: /attachments/
Disallow: /avatars/
Disallow: /cache/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /sis/
Disallow: /Other/
Disallow: /foto/
Disallow: /katalog/
Disallow: /*action
Disallow: /*.msg
Disallow: /*.new
Disallow: /*wap
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /index.php$
Disallow: /go.php
Sitemap: http://www.мойсайт.com/index.php?action=sitemap;xml
Host: www.мойсайт.com

User-agent: slurp
Crawl-delay: 10

User-agent: Twiceler
User-agent: Baiduspider
User-agent: W3C-checklink
Disallow: /


Доп. информация версия форума smf 2.0.1,
установлен Pretty URLs 1.0RC5.2 ,
установлен  Sitemap    2.2.0

sitemap скармливал гуглу такой index.php?action=sitemap;xml и такой index.php?action=sitemap

Безрезультатно. Не жрет (

В общем у кого какие мысли?




Макар

пропиши его выше директивы Disallow: /*action

или в отдельном блоке
Если Вы здесь недавно, не обольщайтесь тоном некоторых дискуссий.
Все чаще слова - юзай поиск, приобретают смысл - иди в ж..........  Приобретение смысла автоматизированно - Ответы на любой вопрос по SMF
Не пишите несколько сообщений подряд - тут вам не Twitter  >:( в остальных ситуациях мы не сильно зверствуем 2funny

Yworld_garry

Думаю лучше дать урл, тогда можно будет на месте посмотреть что в файле не логично. Потому что не должно быть запретов карты. Значит что то в роботсе вашем не на месте.

iliuxa

Добавился сайтмап, сегодня утром. Странно, ничего ведь не делал.

chilly86

Цитата: iliuxa от 07 декабря 2011, 14:49:15
Добавился сайтмап, сегодня утром. Странно, ничего ведь не делал.

Вы один одмин?
to live is to die

iliuxa


nightwolf

#682
Цитата: Yworld_garry от 04 декабря 2011, 02:44:051. Не обязательно что со следующим
2. Да один
3. После сайта
4. Не знаю что у вас генерит сайт, но если такие страницы не нужны, блокируйте их в роботс или другим способом
Спасибо большое вам!!!!!!
Скажите, у меня в sc2wolf.ru/robots.txt  прописан не индексировать Disallow: /components/
Это что получается, мне нужно прописать  Disallow: /component/ ? И как точно узнать, что это такое, что не индексируется яндексом и при нажатии на ссылку сохраняет какой-то непонятный файл размером 2кб?

Открываю одну из 109 исключенных ссылок, где no index и она имеет странный формат, который раннее не видел http://www.sc2wolf.ru/forum/index.php?PHPSESSID=439f8ef0d04da0ca19ddd44c0ec31fde&topic=17.msg34  А по сути на форуме у меня на эту страницу вот такая ссылка http://www.sc2wolf.ru/forum/index.php?topic=2.0. Что это за странные ссылки?

p.s. :o Я что-то немного запутался!

Yworld_garry

1. Я не знаю что у вас такое /components/, дайте ссылку что ли, на этот раздел
2. Ссылки исключены и правильно, хотите узнать что это такое, вбейте в поиск тут PHPSESSID

nightwolf

Так раздел /components/ не индексируется. А индексируется какой-то /component/ без буквы "s". А как мне узнать ссылку на этот раздел?

Файл вот такой странный файл скачивается sc2wolf.ru/component/search/?Itemid=130&id=2&format=opensearch   

Может это просто дубликаты страниц и поэтому они исключаются. Я нашел немного здесь ?

p.s. Робот не заходит, а в поиске то 160 страниц, то 100 не пойму почему скачет кол-во страниц?

Yworld_garry

#685
1. Я имел ввиду поиск на этом форуме.
2. У вас стоит жумла перед форумом и что там за структура я просто не знаю.
Наш роботс касается именно форума, а со всем остальным нужно отдельно разбираться или посмотреть на оф форумах, возможно там есть решение.

stundr

Всем добрый день.
Подскажите по файлу.
У меня стоит сайт на вордпрессе с ЧПУ и форум в папке /forum
добавил вот такой файл роботс.тхт:
ЦитироватьUser-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*type=rss
Disallow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php
Sitemap: http://site.ru/forum/sitemap.xml
Sitemap: http://site.ru/sitemap.xml
Host: site.ru

User-agent: Slurp
Crawl-delay: 100

User-agent: Twiceler
Disallow: /

User-Agent: W3C-checklink
Disallow: /

User-agent: Yandex
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*type=rss
Disallow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php
Sitemap: http://site.ru/forum/sitemap.xml
Sitemap: http://site.ru/sitemap.xml
Host: site.ru
Затем создал тему на форуме, добавил сайт в яндекс вебмастер взял ссылку с новой темы для проверки и яндекс мне пишет, что: запрещен правилом /*?* 
подскажите, какую строку убрать из файла роботс.тхт?
Заранее спасибо.
Плюс если есть какие то неверности в файле тоже было бы неплохо их указать.

nightwolf

Yworld_garry, У меня сейчас на сайте Robots.txt только для joomla. А для форума стандартный не предусмотрен с движком?Я просто думал, что роботс должен быть один. Просто до сих пор яндекс почему-то пол форума noindex tickedoff

lom_aka_snov

Как запретить в роботс гуглу делать это: "Просматривает профиль пользователя"? Спасибо заранее. На данный момент так:

User-agent: *
Allow: /*sitemap
Allow: /*rss
Allow: /*type=rss
Disallow: /attachments/
Disallow: /avatars/
Disallow: /Packages/
Disallow: /Smileys/
Disallow: /Sources/
Disallow: /Themes/
Disallow: /*.msg
Disallow: /*.new
Disallow: /*sort
Disallow: /*topicseen
Disallow: /*wap
Disallow: /*imode
Disallow: /*action
Disallow: /*prev_next
Disallow: /*all
Disallow: /*PHPSESSID
Disallow: /*go.php
Host: www...

User-agent: Slurp
Crawl-delay: 100

Mavn

Цитата: nightwolf от 27 января 2012, 14:18:17У меня сейчас на сайте Robots.txt только для joomla
Цитата: nightwolf от 27 января 2012, 14:18:17что роботс должен быть один
ну так что мешает совместить 2 роботса в один файл???
Цитата: nightwolf от 27 января 2012, 14:18:17А для форума стандартный не предусмотрен с движком?
разработчиками нет, не предусмотрен. поэтому и создавалась эта тема для облегчения задачи пользователям форума.

Цитата: lom_aka_snov от 29 января 2012, 23:01:16Как запретить в роботс гуглу делать это: "Просматривает профиль пользователя"?
роботс всего лишь рекомендация поисковикам и это не значит что гугл не сможет зайти на страницу. Если указано правило в роботс это еще не значит что гугл вообще на подобные страницы заходить не будет. а запрет делается следующим правилом
Disallow: /*action
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

stundr

Друзья!
Очень хочется получить ответ на такой вопрос:
яндекс почему то индексирует форум с такими ссылками:
http://site.com/forum/index.php?PHPSESSID=27f807fbc580296fcc096d56dfa20b4e&topic=13.0
вместо вот таких:
http://site.com/forum/index.php?topic=13.0
в гугле проблем  нет, все нормально индексируется
написал в яндекс, в ответ получил вот это:
Дело в том, что роботу при обходе сайта отдаются ссылки именно с параметрами сессии, поэтому они индексируются и участвуют в поиске. Ссылки без параметров непосредственно на сайте робот не знает. К сожалению, у нас нет возможности указать, какие именно настройки на стороне Вашего сайта влияют на возникновение данной проблемы. Если робот будет находить ссылки без параметров, то индексироваться и участвовать в поиске будут именно они.

как решить данную проблему, кто подскажет?
мой файл robots.txt:
User-agent: Yandex
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/cache/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Allow: /forum/*sitemap
Allow: /forum/*rss
Allow: /forum/*forum
Disallow: /forum/attachments*/
Disallow: /forum/avatars/
Disallow: /forum/avatars_users/
Disallow: /forum/cache/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*all
Disallow: /forum/*go.php
Disallow: /forum/*prev_next
Disallow: /forum/*all
Sitemap: http://site.com/forum/sitemap.xml
Sitemap: http://site.com/sitemap.xml
Host: site.com


maestrosite.ru

Если задаются вопросы по вашей проблеме, значит это нужно вам!
---
Обновления форума, разрешение конфликтов, адаптация модов, исправление ошибок - ваши предложения о сотрудничестве направляйте по адресу smf@maestrosite.ru

Yworld_garry

Уважаемые веб-мастера, если вы получили ниже приведенное письмо от яндекса, не стоит паниковать и нервничать. Если вы используете robots.txt или его производные из приведенного в первом посте этой темы, проблем не будет. Даже если вы вносили изменения и дополняли сложными правилами. Но в любом случаи проверьте в панели свои правила. Общие отрабатывают как до внесения изменений яндексом.

ЦитироватьДобрый день!


Уведомляем вас об изменениях в обработке директивы 'Allow' файла, с помощью которого вы можете разрешить или запретить индексирование сайта поисковым роботом Яндекса.

По новым правилам, если страница сайта попадает под действие нескольких директив 'Allow' и/или 'Disallow', то будет применяться директива с наибольшей длиной префикса URL. При определении длины префикса спецсимвол '*' не учитывается.

Если на вашем сайте в robots.txt совместно используются директивы 'Allow' и 'Disallow', пожалуйста, проверьте их на соответствие новым стандартам. В этом вам поможет наша форма проверки robots.txt.


Подробнее об использовании директив вы можете прочитать в Помощи.


С уважением,
Яндекс.Вебмастер

Файл robots.txt находится и загружается в корень сайта, не в корне форума, не в папке темы, не в папках любых других. Распространяется на весь сайт, если уже существует в корне такой файл, то он просто дополняется правилами для форума. Не пишется robots2.txt, robots_forum.txt.

Vadimru

Блин, голова кипит, а так и не понял, почему sitemap закрыт доя гугла, янлекс принял... Роботс вот http://astrallife.ru/robots.txt Правильный ли он у меня? А то в Яндексе тоже мало страниц, а в гугл в свою очередь слишком много. ЧПУ снёс...
В чем ребят может быть проблема?
Отвлекитесь от работы и подумайте о своей душе! Эзотерический форум http://astrallife.ru создан, чтобы помогать

Yworld_garry

Во первых Host: astrallife.ru  пишут слитно с блокм без пропуска строки.
Во вторых http://astrallife.ru/index.php?action=sitemap;xml  Разрешен и с ним все нормально(проверил и в яндексе и гугле)
Причем Allow: /index.php?action=sitemap;xml лишняя, все прекрасно работает с одним разрешением Allow: /*sitemap
Возможно в гугле еще кеш страниц с чпу, хотя если не запретить в роботс, что то по параметру урла из чпу, они будут очень долго в пс и будет масса гемора.

Vadimru

Цитата: Yworld_garry от 10 марта 2012, 12:51:14
Во первых Host: astrallife.ru  пишут слитно с блокм без пропуска строки.
Во вторых http://astrallife.ru/index.php?action=sitemap;xml  Разрешен и с ним все нормально(проверил и в яндексе и гугле)
Причем Allow: /index.php?action=sitemap;xml лишняя, все прекрасно работает с одним разрешением Allow: /*sitemap
Возможно в гугле еще кеш страниц с чпу, хотя если не запретить в роботс, что то по параметру урла из чпу, они будут очень долго в пс и будет масса гемора.
Спасибо, исправил. А вот как раз по поводу что то по параметру ЧПУ и вызывает проблему... Не ясно, что закрывать...
Отвлекитесь от работы и подумайте о своей душе! Эзотерический форум http://astrallife.ru создан, чтобы помогать

Yworld_garry

#696
Цитата: Vadimru от 10 марта 2012, 14:03:48А вот как раз по поводу что то по параметру ЧПУ и вызывает проблему... Не ясно, что закрывать...
При желании можно закрыть все что угодно, практически все.


Тут будет всегда самая свежая версия и все изощренности)))
Конструктор файла robots.txt

spack

На первой странице во 2-ом сообщении написанно что надо инсталить и мод для генерации карты:
"Ставим вот этот мод SMF sitemap" + строчка в robots.txt -----> Allow: /*sitemap

А он разве для версии SMF 2.0.2 подходит ?
Пытался ставить последнюю версию мода (2.2.1), выдает ошибку:
"The package you are trying to download or install is either corrupt or not compatible with this version of SMF."
Какой мод надо ставить для генерации карты ?

Avdenago

Цитата: stundr от 05 марта 2012, 17:04:17
Друзья!
Очень хочется получить ответ на такой вопрос:
яндекс почему то индексирует форум с такими ссылками:
http://site.com/forum/index.php?PHPSESSID=27f807fbc580296fcc096d56dfa20b4e&topic=13.0
вместо вот таких:
http://site.com/forum/index.php?topic=13.0
в гугле проблем  нет, все нормально индексируется
...
как решить данную проблему, кто подскажет?

Попробуйте для Яндекса использовать параметр Clean-param  http://help.yandex.ru/webmaster/?id=996567#1041216

Yworld_garry