Первая версия robots.txt , для более полной индексации.

Автор Yworld_garry, 04 октября 2008, 23:59:13

« назад - далее »

0 Пользователи и 2 гостей просматривают эту тему.

valdnieks

Цитата: Yworld_garry от 26 декабря 2015, 18:42:54Главное что бы работал как заложено в нем.
Но это уже все в тему того мода.


Не работает или я не то делаю?
Registered Linux user #325316
Последняя версия SMF: SMF 2.0.15
Версия GD: bundled (2.1.0 compatible)
Версия MySQL: 5.5.23
PHP: 5.6.30
Версия Web сервера: Apache/2.4.25 (Win64) PHP/5.6.30

Perm

Цитата: BoPoH от 26 декабря 2015, 17:58:43Я для закрытия разделов ставил мод "BoardNoIndex"

Я ставил этот мод. Но он не работает.

Serifa

Цитата: Yworld_garry от 26 декабря 2015, 12:28:57И возможно есть какая то настройка в портале PortaMx, что бы включить индексацию Frontpage, я не знаю, негде посмотреть сейчас.
Я нашла эту строку и отчекрыжила её.
Frontpage settings => Enable the Frontpage indexing for spider

Цитата: Yworld_garry от 26 декабря 2015, 12:28:57И кстати некоторые темы дают 503 ошибку при переходе к ним с главной.
Да не просто некоторые, а почти все! Вот что пишется в адресной строке:

http://*******/index.php?PHPSESSID=kbsi43t4spvqeua67i4fu006g7&topic=5111.0

Это если заходить гостем. Но если залогиниться — адрес будет другой:
http:/******/index.php?topic=5111.0

Однако страница всё равно будет пустой.
Нормально открываются только темы из блока «Последние сообщения».
Портал работает в режиме «Show a full size Frontpage».
В других режимах - то же самое.

Либо баги портала, либо я что-то в настройках напортачила.

Это сообщение перенесла в тему про портал:
http://www.simplemachines.ru/index.php?topic=18851.msg156995#msg156995
Чтобы не оффтопить.
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

BoPoH


valdnieks

Цитата: BoPoH от 27 декабря 2015, 08:05:35работает

Здравствуйте.
Может выделить категорию, а не раздел, как указано?:

Выберите разделы для исключения из индексации
Registered Linux user #325316
Последняя версия SMF: SMF 2.0.15
Версия GD: bundled (2.1.0 compatible)
Версия MySQL: 5.5.23
PHP: 5.6.30
Версия Web сервера: Apache/2.4.25 (Win64) PHP/5.6.30

BoPoH


Yworld_garry

Еще раз напишу, народ, все что касается вопросов не связанных с темой robots.txt напрямую или косвенно и особенно модов в отдельные темы или тему конкретного мода.
в данном случаи все обсуждения сюда по моду который обсуждаете http://www.simplemachines.ru/index.php?topic=13490.0

Пишу второй раз и без репрессий...  wallbash

GeorG

Цитата: Yworld_garry от 26 декабря 2015, 18:16:26Я давно его не смотрел, но может есть желание потестить у кого http://www.simplemachines.ru/index.php?topic=13490.0
У меня установлен, поисковики не лезут в выбранные разделы.
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

disa

#1208
Прочел инфу о robots.txt, которую рекомендует яндекс. Курил этот топик, пока сил хватило, но так и не понял:

Какое из правил в приведенном в первом сообщении robots.txt от декабря 2015г разрешит яндексу, например, индексировать страницу по ссылке, например, домен/index.php?topic=9.15 ?
я вижу в яндекс вебмастере, что ссылка разрешена, но не могу понять почему ) по моей логике она должна быть запрещена...

вопрос2: имеет ли смысл делать роботс.ткст, если мне "нечего скрывать"? Вся инфа, которая попадалась мне в интернете предполагала, что у меня есть какие-то личные данные, которые я  не хочу светить поисковикам. А у меня такой инфы на сайте нет. Поисковики, как тут писали, шагнули далеко вперед и не переломятся от того, что будут просматривать все подряд.

GeorG

Цитата: disa от 05 января 2016, 07:53:28Какое из правил в приведенном в первом сообщении robots.txt от декабря 2015г разрешит яндексу, например, индексировать страницу по ссылке, например, домен/index.php?topic=9.15
Разрешено всё что не запрещено, в том файле не запрещено открывать топики.

Цитата: disa от 05 января 2016, 07:53:28имеет ли смысл делать роботс.ткст, если мне "нечего скрывать"?
Да, чтобы не было дублей.
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru


GeorG

Роботс так же юзают чтобы перекрыть поисковикам не нужные места, по которым шастать совсем не обязательно, что не создавать лишнюю нагрузку. Потом же опяже там дерективу host прописывается (хотя это конечно не так обязательно, но лучше когда она есть).
В общем, лучше роботс делать, чем не делать. :)
Верстка тем по шаблону, их доработка/переработка, переделка тем с версии smf 1.1 на smf 2.0. Примеры работ - insidestyle.ru
Установка модов (заточка под ваш форум); Моды под заказ; Обновление форума; Правильный перенос; Удаление/лечение вирусов; Устранения ошибок.
Обращаться в ЛС
Мой форум
Модуль анти-спама CleanTalk, сам пользуюсь
Сервера которыми сам пользуюсь - cadedic.ru

Mavn

ну как минимум не будет ошибки 404 file not found :)
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

disa

Цитата: GeorG от 08 января 2016, 19:01:26Роботс так же юзают чтобы перекрыть поисковикам не нужные места, по которым шастать совсем не обязательно, что не создавать лишнюю нагрузку. Потом же опяже там дерективу host прописывается (хотя это конечно не так обязательно, но лучше когда она есть).
В общем, лучше роботс делать, чем не делать. :)
яндекс пишет, что host - это исключительно их расширение, дескать, другие ПС эту директиву не обрабатывают. Это раз.
Во-вторых, я опять никак не могу понять - нужна мне эта директива или нет, если у меня ни одного зеркала нет. Сайт только на одном хосту, без www.
Тот же яндекс.вебмастер все равно ругается и просит эту директиву.

Yworld_garry

Цитата: disa от 09 января 2016, 09:01:01Во-вторых, я опять никак не могу понять - нужна мне эта директива или нет, если у меня ни одного зеркала нет. Сайт только на одном хосту, без www.
А в чем проблема, добавьте и забудьте о этом на долгие годы, хуже не будет точно.
И да, robots.txt лучше иметь по ряду причин, всякое случается и canonical штука однозначно отличная, но всякие варианты случаются, кроме управления ботами, могут и глюки быть и куча ботов которые не понимают canonical и подстраховаться всегда не плохо. Да и сочинить уникальные правила для своего проекта можно легко.

disa

Цитата: Yworld_garry от 09 января 2016, 16:59:52А в чем проблема, добавьте и забудьте о этом на долгие годы, хуже не будет точно.
Я, конечно, извиняюсь, но это НЕ ответ специалиста. "хуже не будет" - пффф
насколько я понимаю, эта директива "хост" нужна яндексу, чтобы не индексировать отдельно один и тот же сайт, размещенный на разных доменах, например, с ввв и без ввв. Чтобы в таком случае ТИЦ считался один и тот же и выдавался для обоих сайтов. Повторюсь, у меня один сайт на одном домене, для чего мне директива эта?
может она обладает еще каким-то сакральным смыслом?

Цитата: Yworld_garry от 09 января 2016, 16:59:52И да, robots.txt лучше иметь по ряду причин, всякое случается и canonical штука однозначно отличная, но всякие варианты случаются, кроме управления ботами, могут и глюки быть и куча ботов которые не понимают canonical и подстраховаться всегда не плохо. Да и сочинить уникальные правила для своего проекта можно легко.
глюки какие? подстраховаться от чего???
ну проиндексируют боты у меня все то, что сейчас в директивах disallowed И ЧТО будет то?? сразу меня забанят в поисковиках за то, что индексировал смайлы или что? я не понимаю.

Yworld_garry

1. Она нужна для определения главного зеркала и все, не хотите указывать не указывайте, укажите хуже не будет.
2. Не забанят, но дубли и всякая не нужная техническая инфа, сессии и тд, в индексе не нужны.
Про этот файл и его свойства, зачем он, что может и для чего служит море инфы. Если вас устраивает так как есть и собственно возможно будет и не плохо с учетом канонического, можете его не использовать.
Но если вам надо управлять ботами, гарантированно избавится от дублей и всякого шлака, открыть для индекса скрипты и стили(это требование пс), то лучше его использовать.
Я наверно или не понял вашего вопроса, либо не понимаю в чем проблема например в вопросе про хост. Для основных ботов свои блоки и в блок яндекса добавляете или оставляете как сейчас в аттаче строчку. Повторюсь, хуже не будет, меньше будет лазить бот по не www с кажем, потом это же индексить, переиндексить с без www отправлять в индекс отфильтрованное и тд. Либо даже при учете 301 редиректа, надеяться что яндекс проиндексит без www ваше зеркало и в последствии не будет появляться это в индексе.

Цитата: disa от 10 января 2016, 04:39:07Я, конечно, извиняюсь, но это НЕ ответ специалиста. "хуже не будет" - пффф
Я конечно расписал выше, но это элементарно и инфы и тут в теме и в инете по этой дерективе море. Тем более проблема в одной строчке для бота яндекса, дописали и забыли, как писал выше, не могу понять чем она вас так напрягает )))))


Perm

Запретил через robots.txt индексирование определённых разделов форума. Например, чтобы запретить индексировать раздел _http://maths24.net/index.php?board=75.0_ внёс директиву Disallow: /*board=75.0 (для всех поисковых машин, а также для Гугла и Яндекса отдельно). Только что нажал на ссылку "Кто онлайн" и обнаружил, что Гугл читает тему из запрещённого для индексирования раздела. Почему так происходит? Как быть?

Yworld_garry

Цитата: Perm от 24 января 2016, 18:14:36Только что нажал на ссылку "Кто онлайн" и обнаружил, что Гугл читает тему из запрещённого для индексирования раздела. Почему так происходит? Как быть?
Суть в том что это не запрет на посещение, а запрет индексации.
Запрет посещения нужно прописывать в .htaccess, что в вашем случаи не имеет смысла. В индекс все равно не попадет. Но конечно можете жестко по запрещать ботам бывать где то на вашем форуме.

Perm

Цитата: Yworld_garry от 24 января 2016, 18:23:37Суть в том что это не запрет на посещение, а запрет индексации.

Так вот оно в чём дело! Спасибо за разъяснение!

digger®

Цитата: Perm от 24 января 2016, 18:14:36Запретил через robots.txt индексирование определённых разделов форума. Например, чтобы запретить индексировать раздел _http://maths24.net/index.php?board=75.0_ внёс директиву Disallow: /*board=75.0 (для всех поисковых машин, а также для Гугла и Яндекса отдельно). Только что нажал на ссылку "Кто онлайн" и обнаружил, что Гугл читает тему из запрещённого для индексирования раздела. Почему так происходит? Как быть?
Вы этой директивой запретили индексировать первую страницу раздела, а не темы в разделе.

Yworld_garry

Цитата: digger® от 24 января 2016, 18:53:57Вы этой директивой запретили индексировать первую страницу раздела, а не темы в разделе.
Упс и точно, я почему то про тему подумал.

Perm

Цитата: digger® от 24 января 2016, 18:53:57Вы этой директивой запретили индексировать первую страницу раздела, а не темы в разделе.

Хм... А как запретить индексировать весь раздел?
Кстати говоря, на данный момент в этом разделе всего лишь одна страница.

Yworld_garry


Yarik

Цитата: Yworld_garry от 24 января 2016, 20:12:57Попробуйте https://www.simplemachines.ru/index.php?topic=13490.0
Только хотел тоже спросить как закрыть раздел,а тут и ответ готов.Вот это сервис,я понимаю. O0

Perm

У меня стоит эта модификация, но не понятно, работает ли. И как выбрать несколько разделов, если они находятся не рядом? Мне так кажется, что там можно выбрать либо один раздел, либо несколько идущих друг за другом.

Yarik

Цитата: Perm от 24 января 2016, 22:06:33У меня стоит эта модификация, но не понятно, работает ли. И как выбрать несколько разделов, если они находятся не рядом? Мне так кажется, что там можно выбрать либо один раздел, либо несколько идущих друг за другом.
Да есть такая бяка и не только в этом моде.У меня планшет на Андроиде.В нём выбирается хоть через раздел.

BoPoH

Цитата: Perm от 24 января 2016, 22:06:33У меня стоит эта модификация, но не понятно, работает ли. И как выбрать несколько разделов, если они находятся не рядом? Мне так кажется, что там можно выбрать либо один раздел, либо несколько идущих друг за другом.
зажимаешь ctrl и мышкой кликаешь на нужные разделы
Сейчас нас очередной раз отсюда погонят в тему мода и будут правы )))

Perm

Цитата: BoPoH от 24 января 2016, 22:22:21зажимаешь ctrl и мышкой кликаешь на нужные разделы

Спасибо. Вроде бы, получилось.

Serifa

А в чем разница? Не проще просто закрыть раздел для ботов и гостей?  ???
«- Помощник капитана Бакстер, - заявил Лумис, - безбожно врет. Все отнюдь не под контролем, вернее, не под его контролем. Корабль захвачен представителями небелковой формы разумной жизни, которые маскируются под обслуживающих роботов, а некоторые даже не делают и этого...»
«То, что у тебя есть, лечится антибиотиками» (nowhere man, 1995)
В телеге срочно нужны читатели!

Yarik


Vbifyz

Скажите, если сделать редирект с index.php на без оного, не будет ли это конфликтовать с тегом рел каноникал на главной странице, который ведет на страницу с index.php.?

В частности у меня в коде так:
rel="canonical" href   =".....//site.ru/index.php"

Yworld_garry

Цитата: Vbifyz от 12 февраля 2016, 12:13:39не будет ли это конфликтовать
Будет, но на самом деле поисковики давно уже все клеят правильно и многое что необходимо было еще несколько лет назад, теперь не так важно. К такому относится и ваш вопрос.
Не надо клеить тем более редиректом  index.php. Я бы еще понял если правилом в robots.txt, хотя и оно теперь особо не актуально, в части форумов.

Vbifyz

Цитата: Yworld_garry от 12 февраля 2016, 12:24:59Не надо клеить тем более редиректом  index.php. Я бы еще понял если правилом в robots.txt, хотя и оно теперь особо не актуально, в части форумов.

А может можно как-нибудь изменить рел-каноникал с index.php на главной на без оного?

Yworld_garry

Цитата: Vbifyz от 12 февраля 2016, 13:14:52А может можно как-нибудь изменить рел-каноникал с index.php на главной на без оного?
Есть мод который визуально убирает со всего форума индекс, но каноникл не правит.
Наверно можно, если расковырять движок.

Но чем он вас так напрягает?

Если для ПС, как и писал выше, они прекрасно клеят к главной и нет дубля. если есть опасения, то можно в роботс добавить Disallow: /index.php$
У файла в шапке, если его скачать, есть такое, с пояснением.


makssun

Это правильный  в плане индексации?
User-agent: Aport
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*action=forum
Allow: /forum/*type=rss
Disallow: /forum/Sources/

User-agent: MSNBot
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*action=forum
Allow: /forum/*type=rss
Allow: /forum/Themes/*.css
Allow: /forum/Themes/*.js
Allow: /forum/Themes/*png
Allow: /forum/Themes/*gif
Disallow: /forum/Sources/
Sitemap:  http://bittogether.com/index.php?action=sitemap;xml

User-agent: Mail.Ru
Allow: /forum/*sitemap-rss
Allow: /forum/*arcade
Allow: /forum/*action=forum
Allow: /forum/*type=rss
Disallow: /forum/Sources/
Sitemap:  http://bittogether.com/index.php?action=sitemap;xml
Host: http://bittogether.com

User-agent: StackRambler
Allow: /*sitemap
Allow: /*arcade
Allow: /*rss
Allow: /*action=forum
Allow: /*type=rss
Disallow: /forum/Sources/
Sitemap:  http://bittogether.com/index.php?action=sitemap;xml


User-agent: Googlebot
Allow: /*sitemap
Allow: /*arcade
Allow: /*rss
Allow: /*action=forum
Allow: /*type=rss
Allow: /Themes/*.css
Allow: /Themes/*.js
Allow: /Themes/*png
Allow: /Themes/*gif
Disallow: /forum/Sources/
Sitemap:  http://bittogether.com/index.php?action=sitemap;xml


User-agent: Yandex
Allow: /*sitemap
Allow: /*arcade
Allow: /*rss
Allow: /*action
Allow: /*type=rss
Disallow: /forum/Sources/
Sitemap: http://bittogether.com/index.php?action=sitemap;xml
Crawl-delay: 5
Clean-param: PHPSESSID /index.php
Host: bittogether.com

Yworld_garry

Цитата: makssun от 16 февраля 2016, 22:28:36Это правильный  в плане индексации?
А что бы из шапки не взять и скачать уже проверенный? ))
Если конечно вам для каких то целей надо для каждого бота свой блок прописать, то опять же взять и скопировать условия из скаченного.


makssun

а нужен этот файл? без него будет индексироваться?
запутался я в нем, нигде не могу найти примера.

Yworld_garry

Цитата: makssun от 16 февраля 2016, 22:58:28а нужен этот файл? без него будет индексироваться?
запутался я в нем, нигде не могу найти примера.

В первом сообщении есть свежий прикрепленный файл, скачайте...

Серый Лис

Позволю себе добавить немного к цитате  digger® ,  на что он обратил ваше внимание, makssun    правила Allow
Файл robots.txt ничего не разрешает, только запрещает!  Нет инструкции Allow - есть только Disallow.
Пару слов о директиве Crawl-delay. Она  устанавливается в секундах и  указывает пауку таймаут при сканировании, к примеру  
Crawl-delay: 4  означает, что робот не будет сканировать страницы сайта чаще чем раз в 4 секунды, другими словами говоря,  Crawl-delay дает понять боту какой должен быть промежуток времени между концом закачки страницы и началом закачки следующей.

digger®

Цитата: Gray fox от 17 февраля 2016, 10:25:17Позволю себе добавить немного к цитате  digger® ,  на что он обратил ваше внимание, makssun   правила Allow
Файл robots.txt ничего не разрешает, только запрещает!  Нет инструкции Allow - есть только Disallow.
Неправильно пишете. Есть и Allow и Disallow. Просто, что не запрещено, то разрешено. Так что, писать кучу Allow без директивы
Disallow: /*
нет смысла, все и так будет открыто.

Серый Лис

Цитата: digger® от 17 февраля 2016, 11:17:05Неправильно пишете.
Покорнейше благодарю. Век живи, век учись..  учту.

makssun

В том прикрепленном сам черт ногу сломит.
Мне не нужны запреты, на то, на другое.
Вот это правильный файл будет?
User-agent: *
Allow: /.xml
Allow: /sitemap
Disallow: /Sources
Sitemap: http://bittogether.com/index.php?action=sitemap;xml
Host: bittogether.com

Yarik

Цитата: makssun от 17 февраля 2016, 19:28:55В том прикрепленном сам черт ногу сломит.
Вот там как раз не сам черт ногу сломит а указанно те дерективы кторые нужны для хорошей и правильной индексации форума.
А вот то что Вы пытаетесь нагородить и является
Цитата: makssun от 17 февраля 2016, 19:28:55черт ногу сломит.
Профили пользователей закрывать не собираетесь?Хотите чтобы информация о всех пользователях Вашего форума индексировалась поисковиками и гуляла по инету?

makssun

Так я и выложил выше текст файла ,сказали ничего в нем не работает.
Где пример правильно настроенного файла?
То не пример, не пойми что.
Что там на что менять-совершенно не понятно.

Yarik

Вам верно написали,обойдитесь без него.
Цитата: makssun от 17 февраля 2016, 20:35:23Где пример правильно настроенного файла?
То не пример, не пойми что.
:facepalm: а это и есть правильно настроенный файл.Если не можете его понять то можно хотя бы попробывать этому поучится.Менять ничего не нужно,просто скачать файл,поставить свои дерективы,закинуть в корень с форумом и всё.

makssun

Так я и пытаюсь понять. Я понял он только для запрета.
И какие свои директивы?
Без примера нереально понять.
Его и прошу, чтоб понять.
Лучше один раз увидеть... чем сто раз обьяснять.

Yworld_garry

Цитата: makssun от 17 февраля 2016, 21:01:51Так я и пытаюсь понять. Я понял он только для запрета.
И какие свои директивы?
Без примера нереально понять.
Его и прошу, чтоб понять.
Лучше один раз увидеть... чем сто раз обьяснять.

Я не знаю как еще объяснить или показать. В файле в шапке закрыто все, что надо закрыть и открыто все, что надо открыть.
Добавляете там где надо свое зеркало и хост и пользуетесь и все.
А то что вы делаете, в смысле варианты вашего роботс, не рабочие.
Еще раз, в шапке рабочий роботс. В теме 1000 с лишним ответов, если что не понятно, тут все есть.

makssun

Вот с шапки файла взял, свой хост и сайтмап вписал.Правильно?
User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Allow: /forum/*action=forum
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /*PHPSESSID
Disallow: /forum/*go.php
Disallow: /index.php$
Sitemap: http://bittogether.com/index.php?action=sitemap;xml
Host: bittogether.com