Как правильно добавить sitemap в панель вебмастера Яндекса и Гугл?

Автор nash17, 12 февраля 2011, 09:13:41

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

nash17

Понимаю вопрос глупый, но расскажите как правильно добавить sitemap в панель вебмастера Яндекса и Гугл?

Потому как Яша пишет "Неверная кодировка" (в его описании - Файл Sitemap не начинается с корректного префикса utf-8 (0xEF 0xBB 0xBF). Файл sitemap.xml должен начинаться со следующей строки: <?xml version="1.0" encoding="UTF-8"?>)

Гугл пишет "Файл Sitemap является страницей HTML
Похоже, что файл Sitemap является страницей HTML. Используйте поддерживаемый формат Sitemap."

На форуме ответа не нашел.
Спасибо




nash17


ichich

а по самой ссылке http://адрес_форума/index.php?action=sitemap;xml должен же быть виден xml файл?
У меня по адресу http://мой_сайт/index.php?action=sitemap карта есть, но в html
а по адресу  http://мой_сайт/index.php?action=sitemap;xml Ошибка шаблона. Можете подсказать откуда xml должен брать шаблон?

Ломака


abubu2

Такой вопрос
форум стоит SMF 2.0 RC4
http://custom.simplemachines.org/mods/index.php?mod=755 - данный мод я могу поставить на свою версию?
И киньте пожалуйста ссылку на мануал по ручной установке, а то для SMF 2.0 RC4 по данной ссылке нету

p.s и ещё вопросик , в яндексе при поиске ссылка на сайт ведёт "Главная страница - Помощь пользователям SMF "

Это через robots.txt убирается?если да то подскажите что вписать.
Надеюсь на ответы..

Bugo


ichich

Цитата: Ломака от 20 февраля 2011, 18:12:38
мод сайтмап без ошибок встал?
без ошибок, но для дефолтовой темы. В свою тему всё ручками прописывал.
Проверил по Парсу - вроде всё на своих местах

abubu2

Цитата: Bugo от 21 февраля 2011, 10:51:42
Можете воспользоваться этим парсером для ручной установки.

Ага спасибо

а что подскажете :
в яндексе при поиске ссылка на сайт ведёт "Главная страница - Помощь пользователям SMF "

Это через robots.txt убирается?если да то подскажите что вписать.

ichich

Цитата: ichich от 21 февраля 2011, 18:23:22
а по самой ссылке http://адрес_форума/index.php?action=sitemap;xml должен же быть виден xml файл?
У меня по адресу http://мой_сайт/index.php?action=sitemap карта есть, но в html
а по адресу  http://мой_сайт/index.php?action=sitemap;xml Ошибка шаблона. Можете подсказать откуда xml должен брать шаблон?

нашел ошибочку, в которую всё упиралось в файле XML шаблона Xml.template.php

<subject><![CDATA[', $context['message']['subject'], ']]></subject>';
<description>', $context['message']['description'], ']]></description>

заменить на:
<subject><![CDATA[', $context['message']['subject'], ']]></subject>
<description>', $context['message']['description'], ']]></description>';


Ответы на мои вопросы:
Страничка http://мой_сайт/index.php?action=sitemap;xml должна отображаться корректно.
Шаблон для XML - Xml.template.php

remingtone

вопрос по яндексу. например, в роботс.тхт запрещаем ему страницы с msg
проверяем

Цитировать17-17   User-agent: YandexBot
   
82-83   Sitemap: http://****/index.php?action=sitemap;xml
Host: ****

Результаты проверки URL   URL   Результат   

   http://*****msg6949.html   разрешен

это как? несмотря на запрет в роботс, он будет индексировать все, что присутствует в сайтмап? :o
зачем тогда роботс? и так же и с остальными мусорными страницами idiot  и в сайтмап нет ни msg, ни printpage...

remingtone

он тупо всё собирает. renameTopic, action=printpage, всё подряд. и в качестве аргументации приводит пути на сайтмап и хост wallbash

убрал сайтмап и хост, все равно пишет "разрешено" и указывает на строку со своим юзерагент. если убрать и ее - тупо "разрешено", без аргументации. с гуглом в этом плане все отлично. хелп!

Yworld_garry

Цитата: okk от 24 сентября 2011, 21:51:41
вопрос по яндексу. например, в роботс.тхт запрещаем ему страницы с msg
проверяем

это как? несмотря на запрет в роботс, он будет индексировать все, что присутствует в сайтмап? :o
зачем тогда роботс? и так же и с остальными мусорными страницами idiot  и в сайтмап нет ни msg, ни printpage...
Цитата: okk от 24 сентября 2011, 22:30:03
он тупо всё собирает. renameTopic, action=printpage, всё подряд. и в качестве аргументации приводит пути на сайтмап и хост wallbash

Как запрещаем, и что за аргумент. Приведите пример вашего роботс или части касающейся запретов конкретных, указав расположение вашего форума относительно корня.

remingtone

спасибо, уже разобрался...
делал по общеизвестной рекомендации:



гугл и яху понимали, а яндекс молча улыбался на свою строку и пропускал все подряд до тех пор, пока заменил все строчки юзер-агент на одну: user-agent: *

теперь все работает, но хлама в кэше столько :facepalm:  вручную пробовал удалять, но это наверно на неделю работы. проидексировал, зараза, даже ссылки из socialize, а их в каждой теме - 15

Yworld_garry

Из кеша будет долго удалятся, можно попробовать 404 настроить. Собственно яндух через пару апов при правильном файлике роботс, перестанет их учитывать в выдаче, потом плавно выкинет.

remingtone

а как бы ее настроить с учетом prettyurl?..

можно поподробнее о настройке? не могу понять, как настроить редирект так, чтобы яндекса перенаправляло при попытках зайти по msg на 404, а юзера при этом ходили нормально...

Yworld_garry

Да, для разных ботов нужно делать отдельные блоки. Иначе корректной работы не будет. Или один блок на все.

Bugo


Yworld_garry

Цитата: okk от 25 сентября 2011, 01:11:03
а как бы ее настроить с учетом prettyurl?..

можно поподробнее о настройке? не могу понять, как настроить редирект так, чтобы яндекса перенаправляло при попытках зайти по msg на 404, а юзера при этом ходили нормально...
Настроить то можно, но проще тогда закрыть от яндекса вообще.
Все равно забанит за такие фокусы.(читаем фак яндекса,  в частности, по поводу  разного контента для пользователей и ботов) :)
Закрыть от индекса и ждать когда очистится кеш яндекса. Закрыть исходя из ваших урлов.
А если настраивать 404 то для всех.

remingtone


Bugo

Да вроде нет проблем. Как и планировалось, Яндекс пишет:
Цитироватьзапрещен правилом /forum/*msg*
К тому же у вас на таких страницах автоматически генерируется тег:
<meta name="robots" content="noindex, nofollow" />
Да и тег canonical никто не отменял.

А как у вас такое получилось:
<meta name="keywords" content="" />
<meta name="keywords" content="забился катализатор, катализатор, пламегасители, mx-6" />


И зачем robots.txt в подпапке forum? Вполне достаточно того, что в корне сайта.

remingtone

это сейчас так, когда я убрал то, что вверху на скриншоте и заменил на user-agent: *
несмотря на <meta name="robots" content="noindex, nofollow" />, я вчера отправил в удаление более 70 страниц с msg, print, action... причем последние попали в индекс вчера. а на яндекс забил - там долго удалять, и там еще больше мусора...
а вот по keywords - не знаю, надо посмотреть.

яндекс отписался, что страницы со временем сами пропадут :)  это при висящих тысяче с чем то ошибок по причине неканоничности, которая была устранена пол года назад... а яндекс-воз и ныне там :)

remingtone

никто не прокомментирует? как так могло получиться, что при указывании в юзер-агент яндекса, он забивает на все запреты и сканирует всё?

Bugo


Yworld_garry

Цитата: okk от 27 сентября 2011, 01:13:29
никто не прокомментирует? как так могло получиться, что при указывании в юзер-агент яндекса, он забивает на все запреты и сканирует всё?
Легко, у вас отсутствовал блок для яндекса. Для каждого бота пишется отдельный блок. Иначе все разрешено.
Перечислять построчно нельзя.
Или один для всех.
Или один блок для всех прочих и ниже для определенного.

remingtone


Yworld_garry


Bugo

Рекомендация — не мануал. Надо и головой думать. И выбрать что-то одно, а не копировать отовсюду.

remingtone

Цитата: Yworld_garry от 27 сентября 2011, 12:44:23
По какому мануалу?
выше я добавлял скрин "правильного robots.txt для SMF". ну да ладно, может это глюки яндекса кривого... Буго уже поменял его у себя :)
Буго, Вы хоть спасибо бы сказали мне, как тестеру :)

remingtone

анонимное предупреждение? за что? какой конкретно пункт? не вопрос, не буду больше писать здесь вообще.

Bugo

Спасибо, конечно. Но я вам всё равно рекомендую почитать тот же мануал Яндекса по составлению robots.txt :)