Роботы индексируют только заголовки-это плохо. SMF1.1.11

robbin · 03 апреля 2007, 14:59:32

SMf 1.1.11
Роботы индексируют только заголовки-для ищущего это не очень информативно.
В выдаче видно только title(название форума) и заголовок темы совпавший с запросом.
А как же сам текст ведь там информации для ищущего гораздо больше?
По моему мнению 90% пользователей не заходят на форум потомучто их вопрос лежит в теле сообщения, а увидеть они его не могут т.к. в поиске выдаётся только заголовок.
Внутрь скрипта не лазил все настройки стандартные.
Что скажете народ ведь проблема серьёзнее некуда?

robbin · 03 апреля 2007, 19:38:14

Почему все молчат?
Если сайт на 90% не виден роботами то зачем он нужен?

Avdenago · 03 апреля 2007, 21:45:33

Цитата: robbin от 03 апреля 2007, 14:59:32
SMf 1.1.11
Роботы индексируют только заголовки-для ищущего это не очень информативно.
В выдаче видно только title(название форума) и заголовок темы совпавший с запросом.
А как же сам текст ведь там информации для ищущего гораздо больше?
По моему мнению 90% пользователей не заходят на форум потомучто их вопрос лежит в теле сообщения, а увидеть они его не могут т.к. им в поиске выдаётся только заголовок.
Внутрь скрипта не лазил все настройки стандартные.
Что скажете народ ведь проблема серьёзнее некуда?

Вы знаете задумался я над вашим вопросом. И в самом вопросе увидел ответ. Дело не в форуме, а скорее всего в способе индексации пауками и поисковиками в частности, а также способом выдачи по результату запроса... Раскрутка и оптимизация это нелегкий труд и я думаю не стоит валить на сам движок, ибо им пользуются много людей в разных странах и я думаю, если бы были проблемы с индексацией тем же гуглом, то давно бы об этом знали и давно бло бы поправлено...

robbin · 03 апреля 2007, 22:54:55

И всётаки я продолжу тему.
Форум у меня индексируется прекрасно, смотрю на статистику и вижу- все основные пауки копаются раз в 2-3 дня стабильно! http://forum.220-380v.ru/awstats
Вопрос ведь в другом повторюсь

ЦитироватьВ выдаче видно только title(название форума) и заголовок темы совпавший с запросом.

, а как же индексируется тело сообщений-никак. Значит тот кто что-то ищет, а в ваших обсуждениях это есть то ищущий проходит мимо!
Господа товарищи проверьте-задайте запрос поисковику из старой проиндексированной темы и посмотрите выдачу, кто что видит?
Что касается движка - доволен, но вот с индексацией надо всем сообща поправить, ведь что движок говорит роботу индексировать то он и индексирует.

robbin · 04 апреля 2007, 12:42:00

Продолжу мысль по поводу особенностей индексации различными пауками, но ведь в поисковике в соседней выдаче всё подругому и meta name="keywords" виден и часть сообщения.
Скажу ещё одно народ видимо не понимает, что проблема описаная мной составная часть оптимизации и продвижения сайта, причём первая ступень без которой все остальные напряги бесполезны.

AndrewBerezin · 13 апреля 2007, 20:46:05

Часто неправильная или неполная индексация страницы связана с ошибками вёрстки. Валидация кода хорошо помогает выявить ошибки вёрстки - _http://validator.w3.org/check?uri=http%3A%2F%2Fforum.220-380v.ru%2Findex.php%2Ftopic%2C26.0.html&charset=%28detect+automatically%29&doctype=Inline&ss=1&verbose=1

Код Выделить

<td align="right" class="catbg">
<a href="http://220-380v.ru" title="Перейти на сайт *Замечательное электричество*"><img src="http://forum.220-380v.ru/Themes/default/images/smflogo.gif" style="margin: 2px;" alt="Перейти на сайт http://220-380v.ru *Замечательное электричество*" />
</td>

Нет закрывающего тега </a>.

domofor · 17 апреля 2007, 02:09:22

Цитата: AndrewBerezin от 13 апреля 2007, 20:46:05
Часто неправильная или неполная индексация страницы связана с ошибками вёрстки. Валидация кода хорошо помогает выявить ошибки вёрстки.

А что делать, если все 16 ошибок найдены исключительно в исходных кодах счетчиков рамблера и яндекса, установленных на форуме?

YSV · 17 апреля 2007, 08:40:04

Удалить их!
Или исправить

AndrewBerezin · 17 апреля 2007, 11:57:04

Ошибки бывают разные. Отсутствие закрывающего слеша или атрибута alt в теге img не является критичным для робота. В отличии от незакрытого тега <a. Или не закрытой кавычки.
И потом, их действительно можно исправить. Или сменить doctype.

robbin · 08 мая 2007, 22:11:17

Беда не приходит одна, теперь заметил что выдача в поисковиках появляется такого вида:
forum.220-380v.ru/index.php?action=printpage;topic=47.0 · 3 КБ, что не менее плохо.
Пользователь видит страницу для печати без возможности навигации по сайту.
Подскажите пожалуйста в чём дело.
Файл indexTemplate.php не редактировал.

Avdenago · 08 мая 2007, 22:23:41

А вы представьте себя на месте поискового веб-паука... Ваши действия?

задумайтесь.

Так вот. Были на форуме решения по ограничению доступа к некоторым разделам форум, а также функциям с помощью файла robots.txt
Пример такого файла можно посмотреть вот тут:
http://www.simplemachines.ru/robots.txt

robbin · 08 мая 2007, 22:53:18

Спасибо за подсказку у меня именно этот robo.txt и стоит, что с ним сделать?
Кстати, к вам на форум очень трудно зайти, страницы грузятся по 3-5мин.

AndrewBerezin · 08 мая 2007, 23:22:01

Пример некорректен и содержит как минимум 2 ошибки (не соответствуют стандарту):
1. uri страниц начинаются не со слеша "/";
2. Используются символ ? в адресе, что недопускается стандартом (Гугль несколько иначе обрабатывает robots.txt используя расширенный стандарт).

Цитата ФАКа Яндекса:

ЦитироватьЧто неправильного в моем файле robots.txt? Почему Яндекс не подчиняется тому, что там написано?

Мы не имеем возможности проверять вручную robots.txt каждого сайта. Прочтите внимательно описание стандарта исключений для файла robots.txt, либо воспользуйтесь скриптом, который на основе анализа robots.txt сообщает, какие именно документы вы запретили для робота Яндекса.

При проверке надо вводить не просто адрес сайта, а адрес страницы.
Например.

Проиндексировано яндексом

Перевод - Стандарт исключений для роботов и статья Несколько слов о том, как работают роботы (spiders) поисковых машин.

Все о файле robots.txt по-русски

Avdenago · 08 мая 2007, 23:31:32

Цитата: AndrewBerezin от 08 мая 2007, 23:22:01

1. uri страниц начинаются не со слеша "/";

и статья Несколько слов о том, как работают роботы (spiders) поисковых машин.

Из вашей же ссылки:

Пример 3:
# This is for every spider!
User-Agent: *
Disallow: /spiders/not/here/

В примере 3 - одна запись. Здесь всем роботам запрещается индексировать директорию /spiders/not/here/, включая такие пути и файлы как /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Однако сюда не входят /spiders/not/ или /spiders/not/her (в директории '/spiders/not/').

AndrewBerezin · 08 мая 2007, 23:35:29

Я не понял, это к чему? Что эта цитата подтверждает или опровергает?

Avdenago · 08 мая 2007, 23:47:46

это к тому что кто-то говорит что uri страниц не начинаются со слеша...

AndrewBerezin · 08 мая 2007, 23:56:04

Да, в приведённом robots все страницы index не начинаются со слеша. Поэтому эти записи не возымеют никакого действия на ботов.

Код Выделить

Disallow: index.php?action=profile;
Disallow: index.php?action=post;
Disallow: index.php?action=search;
Disallow: index.php?action=search2;
Disallow: index.php?action=mlist;
Disallow: index.php?action=admin;
Disallow: index.php?action=pm;
Disallow: index.php?action=sendtopic;
Disallow: index.php?action=markasread;
Disallow: index.php?action=notify;
Disallow: index.php?action=stats;
Disallow: index.php?action=recent;
Disallow: index.php?action=mergetopics;
Disallow: index.php?action=register
Disallow: register.html

AndrewBerezin · 08 мая 2007, 23:57:59

Проиндексировано яндексом index.php?action=profile

Цитата: AndrewBerezin от 08 мая 2007, 23:22:012. Используются символ ? в адресе, что недопускается стандартом (Гугль несколько иначе обрабатывает robots.txt используя расширенный стандарт).

На практике это можно проигнорировать, т.к. основные игроки нормально обрабатывают символ "?".

Я ещё активно, т.е. на каждой странице сайта, использую мета тег robots для запрета индексации. Тем самым дублирую информацию robots.txt. Мета-тег robots позволяет более гибко подходить к управлению индексацией. Насколько я помню, smf тоже активно пользует этот мета тег для тех же целей Одна и таже страница, в зависимости от параметров, может быть доступна для индексации, а может быть запрещена.

Avdenago · 09 мая 2007, 00:33:16

Цитата: AndrewBerezin от 08 мая 2007, 23:57:59
Проиндексировано яндексом index.php?action=profile

А в гугле... в гугле все наоборот красиво...

AndrewBerezin · 09 мая 2007, 00:56:45

Что наоборот? Вот, например, проиндексированная страница поиска (Параметры Поиска) - http://www.google.ru/search?q=+site:www.simplemachines.ru/index.php%3Faction%3Dprofile&hl=ru&lr=&as_qdr=all&start=50&sa=N
6 строка сверху

Все везде одинаково. Отличие гугля от яндекса в обработке robots.txt в том, он понимает строки Allow: и соответствие шаблонам * и $ - http://www.google.ru/support/webmasters/bin/answer.py?answer=40367

AndrewBerezin · 09 мая 2007, 00:59:08

А уж профилей проиндексировано не меньше чем в яндексе - http://www.google.ru/search?q=+site:www.simplemachines.ru/index.php%3Faction%3Dprofile&hl=ru&lr=&as_qdr=all&start=70&sa=N

robbin · 09 мая 2007, 22:26:32

Тут такой интересный разговор пошёл, но не всем понятный.

ЦитироватьСпасибо за подсказку у меня именно этот robot.txt и стоит, что с ним сделать?

AndrewBerezin · 10 мая 2007, 15:08:58

Вы сейчас посмотрите на http://www.simplemachines.ru/robots.txt. Правда там записи дублируются, но эта избыточность "не навредит" (с).

Что индексировать, а что нет - каждый решает сам для себя. Кто-то стремится отдаться роботам по максимому. Я использую подход "от обратного", т.е. сначала запрещаю все возможные страницы, а потом из этого списка удаляю то, что считаю нужным индексировать.

P.S. Это конечно очевидно, но на всякий случай замечу, что при использовании sefu (дружественные URL) robots.txt может выглядеть несколько иначе.

AndrewBerezin · 10 мая 2007, 17:14:48

Вдогонку об индексации.
Чтобы запретить индексировать ссылки в сообщениях форума надо в Sources/Subs.php поменять

Код Выделить

array(
  'tag' => 'url',
  'type' => 'unparsed_content',
  'content' => '<a href="$1" target="_blank">$1</a>',
  'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
  'tag' => 'url',
  'type' => 'unparsed_equals',
  'before' => '<a href="$1" target="_blank">',
  'after' => '</a>',
  'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
  'disabled_after' => ' ($1)',
),

на

Код Выделить

array(
  'tag' => 'url',
  'type' => 'unparsed_content',
  'content' => '<noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noindex>',
  'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
),
array(
  'tag' => 'url',
  'type' => 'unparsed_equals',
  'before' => '<noindex><a href="$1" target="_blank" rel="nofollow">',
  'after' => '</a>',
  'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
  'disabled_after' => ' ($1)',
),

То-же самое для тегов iurl, ftp, flash:

Код Выделить

			array(
				'tag' => 'ftp',
				'type' => 'unparsed_content',
				'content' => '<noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noindex>',
				'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
			),
			array(
				'tag' => 'ftp',
				'type' => 'unparsed_equals',
				'before' => '<noindex><a href="$1" target="_blank" rel="nofollow">',
				'after' => '</a></noindex>',
				'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
				'disabled_after' => ' ($1)',
			),
................
			array(
				'tag' => 'flash',
				'type' => 'unparsed_commas_content',
				'test' => '\d+,\d+\]',
				'content' => ($context['browser']['is_ie'] && !$context['browser']['is_mac_ie'] ? '<object classid="clsid:D27CDB6E-AE6D-11cf-96B8-444553540000" width="$2" height="$3"><param name="movie" value="$1" /><param name="play" value="true" /><param name="loop" value="true" /><param name="quality" value="high" /><param name="AllowScriptAccess" value="never" /><embed src="$1" width="$2" height="$3" play="true" loop="true" quality="high" AllowScriptAccess="never" /><noembed><noindex><a href="$1" target="_blank" rel="nofollow">$1</a></noembed></object>' : '<embed type="application/x-shockwave-flash" src="$1" width="$2" height="$3" play="true" loop="true" quality="high" AllowScriptAccess="never" /><noembed><a href="$1" target="_blank" rel="nofollow">$1</a></noembed></noindex>'),
				'validate' => create_function('&$tag, &$data, $disabled', '
					if (isset($disabled[\'url\']))
						$tag[\'content\'] = \'$1\';'),
				'disabled_content' => '<a href="$1" target="_blank">$1</a>',
			),
......................
			array(
				'tag' => 'iurl',
				'type' => 'unparsed_content',
				'content' => '<noindex><a href="$1" rel="nofollow">$1</a></noindex>',
				'validate' => create_function('&$tag, &$data, $disabled', '$data = strtr($data, array(\'<br />\' => \'\'));'),
			),
			array(
				'tag' => 'iurl',
				'type' => 'unparsed_equals',
				'before' => '<noindex><a href="$1" rel="nofollow">',
				'after' => '</a></noindex>',
				'validate' => create_function('&$tag, &$data, $disabled', '
					if (substr($data, 0, 1) == \'#\')
						$data = \'#post_\' . substr($data, 1);'),
				'disallow_children' => array('email', 'ftp', 'url', 'iurl'),
				'disabled_after' => ' ($1)',
			),