Мой вывод по поводу индексации.

Автор Yworld_garry, 02 октября 2008, 02:00:13

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Yworld_garry

В связи с тем, что мы и наши пользователи начали использовать на своих проектах SMF. Встал остро вопрос по индексации.
Теория
Проведя некоторое исследование, пришли к выводу, что конструкция данная в системе верна, но верна только для гугла и его механизмов фильтрации и работы с форумами.
В яндексе механизм отличается и кроме печати(если не запрещено в роботс) и заголовков, он в принципе ни чего практически не видит. Так как 90% ссылок для него в ноиндекс.
На главной для него открыто только название категорий и форумов. Новые посты или последние закрыты тегом конструкции форума. Включая инфо центр.
В топиках возможна частичная(если повезёт и в основном первый пост) индексация, все ссылки на посты  так же закрыты и он просто не находит открытых. То есть спускаясь по страничке он неизбежно попадает на ноиндекс не успев скушать текст поста.
Соответственно скушав сотню запретов он уходит не забрав ни чего кроме заголовка.

Мысль такая.
Изменить конструкцию убрав от туда не работающий запрет, и перенести в роботс( надо разобраться с разрешёнными символами и что туда скинуть), либо изменить конструкцию, на более щадящую, так как в принципе яндекс что то фильтронёт сам, а что то не будет во вред.

Интересно Ваше мнение, мысли и тд.






Fenix

Цитата: garry69 от 02 октября 2008, 02:00:13
В яндексе механизм отличается и кроме печати(если не запрещено в роботс) и заголовков, он в принципе ни чего практически не видит. Так как 90% ссылок для него в ноиндекс.

А  у меня на одном форуме противоположная ситуация. Гугл даже индексовую не проиндексировал, нет, точнее говоря, проиндексировал, но по запросам она на 5-10-й странице (((

Короче, надо что-то с сео в смф делать.

Yworld_garry

Я оперирую данными не одного и не двух форумов, и оп гуглу как выяснилось есть провалы. Но в большенстве своём они связаны не с данной конструкцией. Сервер косячит, нет карты, не прописан роботс( что для гугла вообще не приемлемо), ссылки кучами на морлодых форумах и тд.

А вот яндух реально не может зацепить контент. Так как на форумах уникальным является сам топик, а не его название, то и получаем не весёлую картину. Даже если форум на какое то время и появиться в выдаче по тексту в топике, то через некоторое время он либо вылетает, либо только печать останется и заголовки.
Собственно если есть идеи изменения изложенного мной в первом посте, готов проводить эксперименты на живых форумах имеющих тысяч 20-30 постов и кучу пользователей. То есть можно получить работающую конструкцию.

Mavn

Кстати по поводу индексации в smf 2.0 beta 4 изменили алгоритм вывода тэга noindex что в общем неблагоприятно сказалось на индексации.
Например в стандарте в случае если добавлен какой нибудь дополнительный экшен например как у меня сделано index.php?action=forum то фактически данная страница будет с тэгом noindex.

Также после того как я убрал из темы noindex в индексацию добавились около 1000 урлов тем что в общем очень существенно. Закономерность с чем связано и на сколько изменился принцип выставления данного тэга не выявлял вчера заметил после переиндексации сайтмэпом.

Кстати по поводу robots.txt у меня в сайтмэпе прописаны исключения для удаления ненужных страниц из карты а соотвественно и из индекса. Я с данным списком довольно много экспереметировал для того чтобы у меня индексировались только темы и ничего лишнего так что технически можно будет на основе данного списка сделать вполне реальный robots.txt. Только единственное мне нужен толковый человек который хорошо разбирается в написании robots.txt

Также есть довольно интересная штука на мой взгляд
http://dev.simplemachines.org/mantis/view.php?id=1141
Для тех у кого проблемы с английским там идет речь о том как убрать из индексации страницы wap2 что кстати реально является проблемой поскольку если убрать из индекса страницу для печати то поисковики принимаются за wap2 и пр. типа wap imode.

В общем сделать тюнинг для той же страницы для печати не проблема там достаточно сделать небольшие изменения вот и все.

Нашел тут недавно довольно интересное решение для титлов


<title>', $context['page_title'] != "$context[forum_name]" ? "$context[forum_name] - " : '', $context['page_title'], '</title>


Так что я думаю что можно переделать тему оформления и использовать.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#4
Mavn, спасибо, вот это уже кое что, думаю на выходных время появится подумать и покрутить.
Собственно мысли некоторые есть, но не хватает материала для анализа.
Попробую разобраться( точнее поработать) в генерации всего этого дела в скрипте. Может в купе с роботс, кострукцией и изменением в темке получиться подружить с яшей.

PS
robots.txt действительно нужен спец и серьёзный. так как при взаимоисключающих, не контролируемых и не законченных запретах/разрешениях мы получим обратный результат. но спеца думаю мы найдём, пока просто надо поглубже покопаться и уже выдать ему ближе к истине.

Mavn

если вопросы будут обращайся у нас по индексированию много материала мы достаточно долго эксперементировали с этим делом а сайтмэп реально помог в этом деле :)
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yworld_garry

#6
Спасибо, обязательно обращусь, надеюсь решим эту проблемку.

Я думаю будет полезно если уважаемые веб-мастера поучаствуют в этом процессе. В примерно такой форме.

Сделал ..... : получил ..... ( не важно положительный или отрицательный результат)
Хочу сделать .... , не выходит.
Мысль такая вот ....

Собственно любая инфа будет полезна.

online-gambler

В соседнем топике, я тоже пытался решить проблему с robots.txt, но ничего толкогого не ответили. Может тут вместе разберемся.
         
ЦитироватьЯ с данным списком довольно много экспереметировал для того чтобы у меня индексировались только темы и ничего лишнего так что технически можно будет на основе данного списка сделать вполне реальный robots.txt.

           Двумя руками за!
Теперь изложу свои наблюдения. У меня форум небольшой, буквально пару месяцев от роду. Сайтмэп выложен в соседнем топике. Версия форума 1.5. Когда прочитал первый пост этого топика, то решил проверить на своем форуме, правда ли яндексом индексируются только заголовки. Оказалось, что для моего форума все нормально, т. е. брал седьмое-восьмое сообщение топика и его часть вводил в строку для поиска Яндекса. Оказывался на первом месте в выдаче, страница была такого вида: forum/index.php?topic=3.0
Еще меня беспокоит проблема, указанная мной в соседнем топике. Она заключается в том, что в индекс включено много одинаковых страниц с разными окончаниями URL. Плюс к тому, половина индекса это страницы для печати. Может их запретить?

Yworld_garry

ЦитироватьОказалось, что для моего форума все нормально
Дык дело в том, что в большинстве своём это не на всегда. И даже при хорошем на первый взгляд индексе, есть куча не нужного индекса.

ЦитироватьМожет их запретить?
Просто запрещать не стоит, иначе ты получишь кучу wap2, wap imode  версий топиков.
Нужно сделать изменения которые уже обсуждались.

ЦитироватьТакже есть довольно интересная штука на мой взгляд
http://dev.simplemachines.org/mantis/view.php?id=1141
Для тех у кого проблемы с английским там идет речь о том как убрать из индексации страницы wap2 что кстати реально является проблемой поскольку если убрать из индекса страницу для печати то поисковики принимаются за wap2 и пр. типа wap imode.

bbbbbb

garry69, не лучше спросить у поддержке самого яндекса,  то что вы спрашиваете может они порекомендуют...

Чеширский кот

Я на днях проверял на индексируемость в Я. панели свой форум. Написано, что загруженно страниц 380, страниц в индексе 121, а внутренних ссылок 105. То есть если учесть что многое не "уникальный контент" и не индексируется, то все равно расхождение достаточно большое. Однако 121 страница говорит о том, что все таки индексирование идет довольно хорошо. И то что внутренних 105 показывает что ссылки все учитываются.
Версия (на тот момент) 1.1.4
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

#11
Цитата: bbbbbb от 03 октября 2008, 20:10:07
garry69, не лучше спросить у поддержке самого яндекса,  то что вы спрашиваете может они порекомендуют...

Да собственно уже спрашивали и получили ответ примерно такой:

Запрещён к индексации тегом ноиндекс или данный тег не закрыт.
Вот и получается миграция, от 2 до 5000 проиндексированных.
Да и собственно напрягает эта ситуация такой индексацией. Яндух не воспринимает эту конструкцию так же как гугл, по этому надо это дело исправлять. Сайт может висеть в индексе и в один прекрасный день исчезнуть или потерять контент и останется всякая чушь.

Цитата: egonika8m от 03 октября 2008, 20:19:51
Однако 121 страница говорит о том, что все таки индексирование идет довольно хорошо. И то что внутренних 105 показывает что ссылки все учитываются.
Версия (на тот момент) 1.1.4
Я не о внутряках говорил, с ними и будет всё ок, а о контенте. Сорри если не правильно выразился.
Толку от урлов с названиями не много. От печать тоже ноль. Я говорил о контенте внутреннем и его индексе.

Кстати вот добавачка в robots.txt с оф яндуха, полезно иметь даже если карта добавлена.

Директива Sitemap.

Если вы используете описание структуры вашего сайта в формате sitemaps.xml, и хотите, чтобы робот узнал о ней, укажите путь к sitemaps.xml, в качестве параметра директивы 'Sitemap' (если файлов несколько, укажите все), примеры:

User-agent: Yandex
Allow: /
Sitemap: http://______mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://______mysite.ru/site_structure/my_sitemaps2.xml

или

User-agent: Yandex
Allow: /

User-agent: *
Disallow: /

Sitemap: http://______mysite.ru/site_structure/my_sitemaps1.xml
Sitemap: http://______mysite.ru/site_structure/my_sitemaps2.xml

Робот запомнит пути к sitemaps.xml, обработает файлы и будет использовать результаты при последующем формировании сессий закачки.

Чеширский кот

Можно провести эксперимент кстати. Например создать топики с очень редкими словами (или выдуманными типа "барабулина", "госиндрос" в общем почти безсмыслица) и разложить их по форуму. В заголовках, первом сообщении, втором сообщении, в области где выводится новости и через недели 3-4 проверить по поиску в Яше или Гугле. Я думаю это точно покажет как что и где индексируется. В том числе и просто обычным способом и с sitemap.

Кто нибудь хочет принять участие в таком эксперименте? Я готов попробовать. Нужно что бы тематики форумов и версии были разными для большей чистоты эксперимента.
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

Собственно провести конечно можно, но могу сразу результаты сказать.
Гугл - от пары часов до суток. На основе нескольких активных форумов. Результат стабилен довольно долго.
Яндекс
Отдельный фору - Название топика и контент примерно через пару дней. Но не факт что он там останется. В стандартном варианте появиться ещё мусор в индексе и естественно так как печать ролевентнее она и будет в индексе.
Форум прикрученный к сайту - От 2 часов до суток, при условии блока на главной сайта с изменёнными урлами ведущими на посты не запрещённые ноиндекс(иначе затянится на долго). Положение так же не стабильно и через некоторое время те же метаморфозы.

На одном из проектов разобрал всё что можно оставил всё по дефолту(представление ботам).
Результат несколько тысяч вылетело сразу и процесс идёт.
Ну собственно это и было понятно и это и нужно.


online-gambler

ЦитироватьТакже есть довольно интересная штука на мой взгляд
http://dev.simplemachines.org/mantis/view.php?id=1141
Для тех у кого проблемы с английским там идет речь о том как убрать из индексации страницы wap2 что кстати реально является проблемой поскольку если убрать из индекса страницу для печати то поисковики принимаются за wap2 и пр. типа wap imode.

  Пытался перевести страницу переводчиком - почти ничего не понял. Может кто-нибудь объяснит по-русски.

Чеширский кот

То есть получается что качество индексации уже проверенно и все работает нормально? А как насчет того как индексируется первый пост и последующие. Как индексируется блок новостей?
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

Пока к сожалению не всё хорошо с индексацией.

Чеширский кот

Чего то какая то безисходность. А если попробовать давать прямые ссылки на темы? Или есть же опция "показывать последние 3-5... сообщений" это помогает?
форум для общения людей среднего возраста www.sandoor.ru/forum/

Yworld_garry

#18
Да нет безысходности ни какой.
Попробую первый вариант, если успею, выложить сегодня.
Первая версия роботс, в соседней ветке.
http://www.simplemachines.ru/index.php/topic,5089.0.html

Чеширский кот

Попробовал разместить проверочные слова по форуму, проверю. Если что так придется пользоваться Вашим методом.
форум для общения людей среднего возраста www.sandoor.ru/forum/