Роботы индексируют только заголовки-это плохо. SMF1.1.11

Автор robbin, 03 апреля 2007, 14:59:32

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

robbin

SMf 1.1.11
Роботы индексируют только заголовки-для ищущего это не очень информативно.
В выдаче видно только title(название форума) и заголовок темы совпавший с запросом.
А как же сам текст ведь там информации для ищущего гораздо больше?
По моему мнению 90% пользователей не заходят на форум потомучто их вопрос лежит в теле сообщения, а увидеть они его не могут т.к. в поиске выдаётся только заголовок.
Внутрь скрипта не лазил все настройки стандартные.
Что скажете народ ведь проблема серьёзнее некуда?

robbin

#1
Почему все молчат?
Если сайт на 90% не виден роботами то зачем он нужен?

Avdenago

Цитата: robbin от 03 апреля 2007, 14:59:32
SMf 1.1.11
Роботы индексируют только заголовки-для ищущего это не очень информативно.
В выдаче видно только title(название форума) и заголовок темы совпавший с запросом.
А как же сам текст ведь там информации для ищущего гораздо больше?
По моему мнению 90% пользователей не заходят на форум потомучто их вопрос лежит в теле сообщения, а увидеть они его не могут т.к. им в поиске выдаётся только заголовок.
Внутрь скрипта не лазил все настройки стандартные.
Что скажете народ ведь проблема серьёзнее некуда?

Вы знаете задумался я над вашим вопросом. И в самом вопросе увидел ответ. Дело не в форуме, а скорее всего в способе индексации пауками и поисковиками в частности, а также способом выдачи по результату запроса...  Раскрутка и оптимизация это нелегкий труд и я думаю не стоит валить на сам движок, ибо им пользуются много людей в разных странах и я думаю, если бы были проблемы с индексацией тем же гуглом, то давно бы об этом знали и давно бло бы поправлено...

robbin

#3
И всётаки я продолжу тему.
Форум у меня  индексируется прекрасно, смотрю на статистику и вижу- все основные пауки копаются раз в 2-3 дня стабильно! http://forum.220-380v.ru/awstats
Вопрос ведь в другом повторюсь
ЦитироватьВ выдаче видно только title(название форума) и заголовок темы совпавший с запросом.
, а как же индексируется тело сообщений-никак. Значит тот кто что-то ищет, а в ваших обсуждениях это есть то ищущий проходит мимо!
Господа товарищи проверьте-задайте запрос поисковику из старой проиндексированной темы и посмотрите выдачу, кто что видит?
Что касается движка - доволен, но вот с индексацией надо всем сообща поправить, ведь что движок говорит роботу индексировать то он и индексирует.

robbin

Продолжу мысль по поводу особенностей индексации различными пауками, но ведь в поисковике в соседней  выдаче всё подругому и meta name="keywords" виден и часть сообщения.
Скажу ещё одно народ видимо не понимает, что проблема описаная мной составная часть оптимизации и продвижения сайта, причём первая ступень без которой все остальные напряги бесполезны.

AndrewBerezin

Часто неправильная или неполная индексация страницы связана с ошибками вёрстки. Валидация кода хорошо помогает выявить ошибки вёрстки - _http://validator.w3.org/check?uri=http%3A%2F%2Fforum.220-380v.ru%2Findex.php%2Ftopic%2C26.0.html&charset=%28detect+automatically%29&doctype=Inline&ss=1&verbose=1

<td align="right" class="catbg">
<a href="http://220-380v.ru" title="Перейти на сайт *Замечательное электричество*"><img src="http://forum.220-380v.ru/Themes/default/images/smflogo.gif" style="margin: 2px;" alt="Перейти на сайт http://220-380v.ru *Замечательное электричество*" />
</td>

Нет закрывающего тега </a>.

domofor

Цитата: AndrewBerezin от 13 апреля 2007, 20:46:05
Часто неправильная или неполная индексация страницы связана с ошибками вёрстки. Валидация кода хорошо помогает выявить ошибки вёрстки.
А что делать, если все 16 ошибок найдены исключительно в исходных кодах счетчиков рамблера и яндекса, установленных на форуме?

YSV


AndrewBerezin

Ошибки бывают разные. Отсутствие закрывающего слеша или атрибута alt в теге img не является критичным для робота. В отличии от незакрытого тега <a. Или не закрытой кавычки.
И потом, их действительно можно исправить. Или сменить doctype.

robbin

Беда не приходит одна, теперь заметил что выдача в поисковиках появляется такого вида:
forum.220-380v.ru/index.php?action=printpage;topic=47.0  · 3 КБ, что не менее плохо.
Пользователь видит страницу для печати без возможности навигации по сайту.
Подскажите пожалуйста в чём дело.
Файл indexTemplate.php не редактировал.

Avdenago

А вы представьте себя на месте поискового веб-паука... Ваши действия?  


задумайтесь.

Так вот. Были на форуме решения по ограничению доступа к некоторым разделам форум, а также функциям с помощью файла robots.txt  
Пример такого файла можно посмотреть вот тут:
http://www.simplemachines.ru/robots.txt

robbin

Спасибо за подсказку у меня именно этот robo.txt и стоит, что с ним сделать?
Кстати, к вам на форум очень трудно зайти, страницы грузятся по 3-5мин.

AndrewBerezin

#12
Пример некорректен и содержит как минимум 2 ошибки (не соответствуют стандарту):
1. uri страниц начинаются не со слеша "/";
2. Используются символ ? в адресе, что недопускается стандартом (Гугль несколько иначе обрабатывает robots.txt используя расширенный стандарт).

Цитата ФАКа Яндекса:
ЦитироватьЧто неправильного в моем файле robots.txt? Почему Яндекс не подчиняется тому, что там написано?

Мы не имеем возможности проверять вручную robots.txt каждого сайта. Прочтите внимательно описание стандарта исключений для файла robots.txt, либо воспользуйтесь скриптом, который на основе анализа robots.txt сообщает, какие именно документы вы запретили для робота Яндекса.
При проверке надо вводить не просто адрес сайта, а адрес страницы.
Например.

Проиндексировано яндексом

Перевод - Стандарт исключений для роботов и статья Несколько слов о том, как работают роботы (spiders) поисковых машин.

Все о файле robots.txt по-русски

Avdenago

Цитата: AndrewBerezin от 08 мая 2007, 23:22:01

1. uri страниц начинаются не со слеша "/";

и статья Несколько слов о том, как работают роботы (spiders) поисковых машин.

Из вашей же ссылки:

Пример 3:
# This is for every spider!
User-Agent: *
Disallow: /spiders/not/here/

В примере 3 - одна запись. Здесь всем роботам запрещается индексировать директорию /spiders/not/here/, включая такие пути и файлы как /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Однако сюда не входят /spiders/not/ или /spiders/not/her (в директории '/spiders/not/').

AndrewBerezin

Я не понял, это к чему? Что эта цитата подтверждает или опровергает?

Avdenago

это к тому что кто-то говорит что uri страниц не начинаются со слеша...   

AndrewBerezin

Да, в приведённом robots все страницы index не начинаются со слеша. Поэтому эти записи не возымеют никакого действия на ботов.
Disallow: index.php?action=profile;
Disallow: index.php?action=post;
Disallow: index.php?action=search;
Disallow: index.php?action=search2;
Disallow: index.php?action=mlist;
Disallow: index.php?action=admin;
Disallow: index.php?action=pm;
Disallow: index.php?action=sendtopic;
Disallow: index.php?action=markasread;
Disallow: index.php?action=notify;
Disallow: index.php?action=stats;
Disallow: index.php?action=recent;
Disallow: index.php?action=mergetopics;
Disallow: index.php?action=register
Disallow: register.html

AndrewBerezin

#17
Проиндексировано яндексом index.php?action=profile



Цитата: AndrewBerezin от 08 мая 2007, 23:22:012. Используются символ ? в адресе, что недопускается стандартом (Гугль несколько иначе обрабатывает robots.txt используя расширенный стандарт).
На практике это можно проигнорировать, т.к. основные игроки нормально обрабатывают символ "?".



Я ещё активно, т.е. на каждой странице сайта, использую мета тег robots для запрета индексации. Тем самым дублирую информацию robots.txt. Мета-тег robots позволяет более гибко подходить к управлению индексацией. Насколько я помню, smf тоже активно пользует этот мета тег для тех же целей  Одна и таже страница, в зависимости от параметров, может быть доступна для индексации, а может быть запрещена.


AndrewBerezin

Что наоборот? Вот, например, проиндексированная страница поиска (Параметры Поиска) - http://www.google.ru/search?q=+site:www.simplemachines.ru/index.php%3Faction%3Dprofile&hl=ru&lr=&as_qdr=all&start=50&sa=N
6 строка сверху :)

Все везде одинаково. Отличие гугля от яндекса в обработке robots.txt в том, он понимает строки Allow: и соответствие шаблонам * и $ - http://www.google.ru/support/webmasters/bin/answer.py?answer=40367

AndrewBerezin


robbin

Тут такой интересный разговор пошёл, но не всем понятный.
ЦитироватьСпасибо за подсказку у меня именно этот robot.txt и стоит, что с ним сделать?

AndrewBerezin

#22
Вы сейчас посмотрите на http://www.simplemachines.ru/robots.txt. Правда там записи дублируются, но эта избыточность "не навредит" (с). :)
Что индексировать, а что нет - каждый решает сам для себя. Кто-то стремится отдаться роботам по максимому. Я использую подход "от обратного", т.е. сначала запрещаю все возможные страницы, а потом из этого списка удаляю то, что считаю нужным индексировать.

P.S. Это конечно очевидно, но на всякий случай замечу, что при использовании sefu (дружественные URL) robots.txt может выглядеть несколько иначе.

AndrewBerezin

Вдогонку об индексации.
Чтобы запретить индексировать ссылки в сообщениях форума надо в Sources/Subs.php поменять
array(
  'tag' => 'url',
  'type' => 'unparsed_content',
  'content' => '<a href="$1" target="_blank">$1</a>',
  'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
  'tag' => 'url',
  'type' => 'unparsed_equals',
  'before' => '<a href="$1" target="_blank">',
  'after' => '</a>',
  'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
  'disabled_after' => ' ($1)',
),

на
array(
  'tag' => 'url',
  'type' => 'unparsed_content',
  'content' => '<noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noindex>',
  'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
  'tag' => 'url',
  'type' => 'unparsed_equals',
  'before' => '<noindex><a href="$1" target="_blank" rel="nofollow">',
  'after' => '</a>',
  'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
  'disabled_after' => ' ($1)',
),

То-же самое для тегов iurl, ftp, flash:
array(
'tag' => 'ftp',
'type' => 'unparsed_content',
'content' => '<noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noindex>',
'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
'tag' => 'ftp',
'type' => 'unparsed_equals',
'before' => '<noindex><a href="$1" target="_blank" rel="nofollow">',
'after' => '</a></noindex>',
'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
'disabled_after' => ' ($1)',
),
................
array(
'tag' => 'flash',
'type' => 'unparsed_commas_content',
'test' => '\d+,\d+\]',
'content' => ($context['browser']['is_ie'] && !$context['browser']['is_mac_ie'] ? '<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" width="$2" height="$3"><param name="movie" value="$1" /><param name="play" value="true" /><param name="loop" value="true" /><param name="quality" value="high" /><param name="AllowScriptAccess" value="never" /><embed src="$1" width="$2" height="$3" play="true" loop="true" quality="high" AllowScriptAccess="never" /><noembed><noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noembed></object>' : '<embed type="application/x-shockwave-flash" src="$1" width="$2" height="$3" play="true" loop="true" quality="high" AllowScriptAccess="never" /><noembed><a href="$1" target="_blank" rel="nofollow">$1</a></noembed></noindex>'),
'validate' => create_function('&$tag, &$data, $disabled', '
if (isset($disabled[\'url\']))
$tag[\'content\'] = \'$1\';'),
'disabled_content' => '<a href="$1" target="_blank">$1</a>',
),
......................
array(
'tag' => 'iurl',
'type' => 'unparsed_content',
'content' => '<noindex><a href="$1" rel="nofollow">$1</a></noindex>',
'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
'tag' => 'iurl',
'type' => 'unparsed_equals',
'before' => '<noindex><a href="$1" rel="nofollow">',
'after' => '</a></noindex>',
'validate' => create_function('&$tag, &$data, $disabled', '
if (substr($data, 0, 1) == \'#\')
$data = \'#post_\' . substr($data, 1);'),
'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
'disabled_after' => ' ($1)',
),