Проиндексировано, несмотря на блокировку в файле robots.txt. Как победить?

Автор gorbi, 07 июня 2020, 20:37:51

« предыдущая - следующая »

0 Пользователей и 1 гость просматривают эту тему.

gorbi

Гугл говорит об ошибке. Примеры:
https://www.g-news.com.ua/forum_smf/index.php?action=media;sa=album;in=24;sort=2;desc;nw
https://www.g-news.com.ua/forum_smf/?action=media;sa=item;in=147
По идее, все галереи на форуме удалены. Откуда Гугл берёт эти ссылки и как это исправить?

S.T.A.L.K.E.R.

Цитата: gorbi от 07 июня 2020, 20:37:51По идее, все галереи на форуме удалены. Откуда Гугл берёт эти ссылки и как это исправить?
Из своего кеша достаёт.
Он помнит что там было и он инедексировал.Вот он и тыкается туда
Никак не победить.Со временем сам перестанет.

gorbi

А может это быть из-за того, что какая-то папка осталась на хостинге от галереи? Дело в том, что попросил Гугель перепроверить и пишет, что проблема осталась.

Обнаружил папку mgal_data. Её грохнуть?

S.T.A.L.K.E.R.

Цитата: gorbi от 07 июня 2020, 21:37:25А может это быть из-за того, что какая-то папка осталась на хостинге от галереи? Дело в том, что попросил Гугель перепроверить и пишет, что проблема осталась.

Обнаружил папку mgal_data. Её грохнуть?
Если возможность есть можете закрыть её паролем.Или переименовать.
Или в файле .htaccess закрыть её
Или в архив её запаковать.
Видит тогда конечно же эту папку Гугл...
Грохнуть то можно.А вдруг понадобится зачем то данные из неё.

gorbi

Цитата: S.T.A.L.K.E.R. от 07 июня 2020, 21:50:15Грохнуть то можно.А вдруг понадобится зачем то данные из неё.
Там был развлекательный контент. Не вечное )

S.T.A.L.K.E.R.

Цитата: gorbi от 07 июня 2020, 22:00:50Там был развлекательный контент. Не вечное )
Тогда упакуйте в архив папку да и всё.

gorbi

У меня форуму лет 15, там на хостинге столько хвостов валяется от разных работ. Форум никогда не пересобирался после запуска. Пора взять мусорный пакет и немного повыбрасывать хлам )))

S.T.A.L.K.E.R.

Цитата: gorbi от 08 июня 2020, 09:37:47У меня форуму лет 15, там на хостинге столько хвостов валяется от разных работ. Форум никогда не пересобирался после запуска. Пора взять мусорный пакет и немного повыбрасывать хлам )))
У меня так же мусора хватает.
Все равно хранишь его,мало ли что.

gorbi

Гуглу показалось мало индексировать несуществующую галерею, так он решил индексировать закладки и тоже, не смотря на запрет в файле robots.txt.
[color=rgba(0, 0, 0, 0.870588)]https://www.g-news.com.ua/forum_smf/index.php?action=mb;sa=add;topic=6372;msg=28411[/color] 

Гугл, завязывай!

S.T.A.L.K.E.R.


gorbi

По идее, Гугл ведет нас в светлое будущее. Нельзя на него забивать

S.T.A.L.K.E.R.


gorbi


S.T.A.L.K.E.R.

Цитата: gorbi от 05 июля 2020, 11:53:50Может Гугл намекает, что этот запрет в роботс лишний?
У меня как бы то что он индексировал не смотря на запрет 100% лишнее.

Сан

Цитата: gorbi от 05 июля 2020, 09:04:34не смотря на запрет в файле robots.txt
robots.txt - это не запрет, это пожелание владельца сайта в письменном виде.

gorbi

А тем временем ошибок стало ещё больше. Что нужно Google?

digger®

Вообще, странно. Хоть и по мнению гугла, запрет в robots.txt не дает роботу сканировать, а не индексировать, поэтому робот может такие страницы все равно проиндексировать, если как-то попадет на них. Но профили пользователей, например, все равно закрыты от гостей и роботов, как робот гугла смог туда попасть?
Возможно, гугловский счетчик сливает страницы, когда по ним ходят юзеры. Яндес метрика точно так делает, если в настройках не отключить.

Derty


gorbi



gorbi

Цитата: digger® от 26 июля 2020, 14:47:13Раньше была там прямо галка по умолчанию, про отправку страниц на индексацию. Сейчас не вижу ее.
Может пойти навстречу Гуглу и не запрещать в роботс?

gorbi

Там ещё одна непонятка - в списке ссылки с www, а они должны быть уже склеены  wallbash

S.T.A.L.K.E.R.

Цитата: gorbi от 26 июля 2020, 14:59:03Там ещё одна непонятка - в списке ссылки с www, а они должны быть уже склеены  wallbash
Так быстро не поклеит.Старые ссылки ещё будет периодически вытягивать из загашника.У меня в первый раз пол-года ссылки разные всплывали то там то там.На втором домене же сразу редирект ставил,там www не успели набрать.

gorbi

Цитата: S.T.A.L.K.E.R. от 26 июля 2020, 15:08:25пол-года ссылки разные всплывали
А мне попался букварь, в котором говорилось про 4-6 недель и им поверил  :facepalm:

S.T.A.L.K.E.R.

Цитата: gorbi от 26 июля 2020, 15:17:54А мне попался букварь, в котором говорилось про 4-6 недель и им поверил  :facepalm:
Кстати Яндекс в последнее время клеит гораздо оперативнее Гугла.
Хотя по всем букварям так же наоборот всё.

gorbi

Погуглил. Это, оказывается, весьма популярный запрос.
Например
ВопросЗдравствуйте. Есть страницы в search console - Проиндексировано, несмотря на блокировку в файле robots.txt .
Всего 78 страниц , и все они это лимиты или сортировка товара. Пример такой страницы:
Не понимаю почему так происходит. Ведь на самой странице указано что индексировать нельзя.
<meta name="robots" content="noindex, follow" />. Также соответсвенно страницы сортировки и лимита закрыты в файле robots.txt
Подскажите пожалуйста как исправить, и насколько такая проблема пагубно отражается на самом сайте? 

ОтветИз-за того что у вас страница закрыта в robots.txt, бот не может ее просканировать и увидеть noindex. Уберите данные запреты
Disallow: /*?sort= Disallow: /*&sort=

И сами увидите как страницы быстро уйдут из индекса
Если хотите ускорить данный процесс, сформируйте отдельную карту сайта (xml) и отправьте её на переобход в Search Console.

gorbi

И ещё...

Дело в том, что для поисковой системы Google в файле Robots.txt прописываются правила сканирования ресурса, но не индексирования. Т.е. сканирование может быть запрещено, но поисковая система может добавить в индекс данный url-адрес, так как может найти его другими способами.

Поисковая система Яндекса, в отличие от Google, использует файл Robots.txt как правила сканирования и индексирования. Яндекс всегда следует директивам в файле Robots.txt.

gorbi

Получается, что из директив Гуглу нужно убрать Disallow: /forum_smf/*action ?

gorbi

Посмотрел код страницы, а там мега тег такой <meta name="robots" content="index, follow" />

gorbi

Господа, сужу вопрос - как поменять метатег в закрытых в роботс страницах на noindex ?