Закрыть от индексации поисковиками файлы через .htaccess

Автор Yworld_garry, 01 сентября 2015, 09:39:34

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Yworld_garry

Небольшая, но важная рекомендация по ведению своего проекта в поисковиках.
В настоящий момент, достаточно распространен метод обхода того же редиректа внешними факторами.
В панеле веб мастера могут появится и появляются ссылки ссылающихся на вас различных очень не приглядных сайтов, вирусника, варез, проно.
Как и достаточно приличных на первый взгляд, но зараженных и тд и тп
Работает это все так..
Ссылка дается на ваш редирект, редирект отработал и попадает уже на нужный сайт для давшего ссылку на редирект.
На первый взгляд все ок и круто, ссылок внешних прибавилось...но тут и кроется вся прелесть которую можно получить от пс.
Ссылаетесь на варез, проно, вирусню получаем санкции и мего плохую карму для проекта и остальные варианты радостей.

Почему пс засчитывают ссылку, файл же закрыт в robots.txt. Все просто, этот файл не запрет, а рекомендация и отлично отрабатывается внутри сайта/форума, а вот когда внешними ссылками его подсовывают пс, она с радостью его обрабатывает и засчитывает.

Бороться с такими штуками надо кардинально, а именно давая реальный запрет, что может дать файл .htaccess

Как пример ниже, добавим в файл .htaccess несколько строк

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot


<FilesMatch "^.*go.*$">
Order Allow,Deny
Allow from all
Deny from env=search_bot
</FilesMatch>

Запрещаем доступ выше означенным ботам ко всем файлам содержащим go

Собственно и все, прописали жесткий запрет.



Mavn

Да кстати говоря есть такая проблема, через наш сайт одно время довольно много редиректилось всякого хлама, но мы с Олегом тогда в файле go сделали некоторые изменения что в общем значительно уменьшило поток через файл go ну и конечно  фаером очень много порезал.
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Yarik


Yworld_garry

Цитата: Stalker от 01 сентября 2015, 17:18:17место вставки в файле .htaccess значения не имеет?

Не принципиально если нет каких то правил сложных в файле, можно снизу
Кстати ботов можно добавить по примеру, майл еще каких то.

Yarik

@Yworld_garry а проверить в панели Яндекса я понимаю можно так - взять любую ссылку с редиректа и проверить на индексацию?
С robots.txt этот запрет можно убрать - Disallow: /*go.php ?

Yworld_garry

В панеле посмотреть появились какие то подозрительные входящие ссылки....явно с сайтов с которых не может быть. Повлиять не сможете скорее всего, ни на появившееся, ни на что, только если решите настучать на такие хитропопые сайты))
Со временем само все исчезнет.
Но суть в том, что бы санкции не словить за урлы на всякую хрень. А с вводом минусинска все очень актуально.
В robots.txt ничего убирать не надо.

Yarik

Спасибо за консультации,таких сайтов вроде замеченно небыло,но подстраховатся на будущее не помещает.Полезный совет. O0

pavelk

Цитата: Yworld_garry от 01 сентября 2015, 09:39:34В панеле веб мастера могут появится и появляются ссылки ссылающихся на вас различных очень не приглядных сайтов, вирусника, варез, проно.

Заметил подобные ссылки ссылающихся в панели хостера,
а панели вебмастера яндекса ничего подобного нет.

Как узнать успел ли получить санкции и мего плохую карму?
В Optimus Brave эту фичу нельзя добавить?
Этот текст отображается под каждым моим сообщением.

Alex32

Цитата: Yworld_garry от 01 сентября 2015, 17:20:13Не принципиально если нет каких то правил сложных в файле, можно снизу

Вставил ваш код в самый низ , может быть перед ним решетку какую надо было прописать как там смотрю стоят перед какими то правилами что ли. И вижу строчек много каких то типа ErrorDocument 401 /index.php?action=error;code=401 это не запрет на индексацию несуществующих страниц ли?

Код вышел такой:

# beginning of directives for Apache Error Handling modification
RewriteEngine on
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule (.*)  /index.php?action=error;code=404
ErrorDocument 400 /index.php?action=error;code=400
ErrorDocument 401 /index.php?action=error;code=401
ErrorDocument 402 /index.php?action=error;code=402
ErrorDocument 403 /index.php?action=error;code=403
ErrorDocument 404 /index.php?action=error;code=404
ErrorDocument 405 /index.php?action=error;code=405
ErrorDocument 406 /index.php?action=error;code=406
ErrorDocument 407 /index.php?action=error;code=407
ErrorDocument 408 /index.php?action=error;code=408
ErrorDocument 409 /index.php?action=error;code=409
ErrorDocument 410 /index.php?action=error;code=410
ErrorDocument 411 /index.php?action=error;code=411
ErrorDocument 412 /index.php?action=error;code=412
ErrorDocument 413 /index.php?action=error;code=413
ErrorDocument 414 /index.php?action=error;code=414
ErrorDocument 415 /index.php?action=error;code=415
ErrorDocument 416 /index.php?action=error;code=416
ErrorDocument 417 /index.php?action=error;code=417
ErrorDocument 500 /index.php?action=error;code=500
ErrorDocument 501 /index.php?action=error;code=501
ErrorDocument 502 /index.php?action=error;code=502
ErrorDocument 503 /index.php?action=error;code=503
ErrorDocument 504 /index.php?action=error;code=504
ErrorDocument 505 /index.php?action=error;code=505
# end of directives for Apache Error Handling modification

# PRETTYURLS MOD BEGINS
# Pretty URLs mod
# http://code.google.com/p/prettyurls/
# .htaccess file generated automatically on: November 18, 2013, 20:12

RewriteEngine on
RewriteBase /

# Rules for: actions
RewriteRule ^(activate|admin|announce|attachapprove|buddy|calendar|clock|collapse)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(coppa|credits|deletemsg|display|dlattach|editpoll|editpoll2|emailuser)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(findmember|groups|help|helpadmin|im|jseditor|jsmodify|jsoption)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(lock|lockvoting|login|login2|logout|markasread|mergetopics|mlist)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(moderate|modifycat|modifykarma|movetopic|movetopic2|notify|notifyboard|openidreturn)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(pm|post|post2|printpage|profile|quotefast|quickmod|quickmod2)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(recent|register|register2|reminder|removepoll|removetopic2|reporttm|requestmembers)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(restoretopic|search|search2|sendtopic|smstats|suggest|spellcheck|splittopics)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(stats|sticky|theme|trackip|about:mozilla|about:unknown|unread|unreadreplies)/?$ ./index.php?pretty;action=$1 [L,QSA]
RewriteRule ^(verificationcode|viewprofile|vote|viewquery|viewsmfile|who|\.xml|xmlhttp)/?$ ./index.php?pretty;action=$1 [L,QSA]

# Rules for: boards
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1.0 [L,QSA]
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([0-9]*)/?$ ./index.php?pretty;board=$1.$2 [L,QSA]

# Rules for: topics
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/?$ ./index.php?pretty;board=$1;topic=$2.0 [L,QSA]
RewriteRule ^([-_!~*'()$a-zA-Z0-9]+)/([-_!~*'()$a-zA-Z0-9]+)/([0-9]*|msg[0-9]*|new)/?$ ./index.php?pretty;board=$1;topic=$2.$3 [L,QSA]

# PRETTYURLS MOD ENDS

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
 
 
<FilesMatch "^.*go.*$">
Order Allow,Deny
Allow from all
Deny from env=search_bot
</FilesMatch>


Mavn

# в .htaccess это комментарии ничего более
кстати говоря если вас стоит мод pretty url или подобный то хз могут быть проблемы с теми страницами где встречается go
SimpleMachines Russian Community Team
п.1 Пройду курсы гадалок для определения исходного кода по скриншоту.

п.2 У вас нет желания читать правила раздела, у меня нет желания одобрять темы, которые не соответствуют этим правилам.

Alex32

Цитата: Mavn от 19 октября 2015, 08:52:17# в .htaccess это комментарии ничего более
кстати говоря если вас стоит мод pretty url или подобный то хз могут быть проблемы с теми страницами где встречается go

Нет, таких нет, изначально ставил и вскоре удалил.

pavelk

Цитата: Yworld_garry от 01 сентября 2015, 17:27:32Со временем само все исчезнет.

В статистике от хостера на текущий месяц приличный список ссылающихся, хотя внёс правки в .htaccess почти месяц назад.
Их же уже не должно быть?
Этот текст отображается под каждым моим сообщением.

Yarik


pavelk

Цитата: Stalker от 10 ноября 2015, 12:56:17?

В статистике хостера не показано на какую страницу ссылка.
Цитата: Stalker от 10 ноября 2015, 12:56:17Они все ссылаются на страницу go ?

Может зря паникую, если их не показывает google & yandex?
Этот текст отображается под каждым моим сообщением.

Yarik

Если у хостера не показывает то вполне реально что и зря паникуете.Могут ссылатся и на обычные страницы.Вдобавок пишете что гугле и яше нет внешних ссылок на страницу go.

pavelk

Цитата: Stalker от 12 ноября 2015, 13:22:33Могут ссылатся и на обычные страницы

А в этом случае что делать?

В новом интерфейсе яндекса показывает ссылку
<a href='_мой_форум_/index.php/topic,92.new.html#new' class='bbc_url' title='' rel='nofollow external'>creampie video com</a><br />
Этот текст отображается под каждым моим сообщением.

Yworld_garry

Цитата: pavelk от 15 декабря 2015, 14:20:41А в этом случае что делать?

В новом интерфейсе яндекса показывает ссылку

Показывает где, в каком разделе?

pavelk

Цитата: Yworld_garry от 15 декабря 2015, 15:30:09Показывает где, в каком разделе?

Индексирование - Входящие ссылки - Внешние ссылки
Этот текст отображается под каждым моим сообщением.

Yworld_garry

Цитата: pavelk от 15 декабря 2015, 16:13:57Внешние ссылки
С внешними ничего не сделаете, если вам она не нужна, то только обращение к админу того ресурса где она проставлена.

pavelk

#19
Цитата: Yworld_garry от 15 декабря 2015, 16:18:56С внешними ничего не сделаете, если вам она не нужна, то только обращение к админу того ресурса где она проставлена.

Написал хостеру по email`ам во whois - удалили.
Причем не ссылку а сам ресурс. Там было какое-то подобие форума.

Хорошо бы иметь какую нибудь нотификацию о подобных ссылках или это не критично?
Зачем вообще такие ресурсы и ссылки создавать?
Этот текст отображается под каждым моим сообщением.

Yarik

#20
Цитата: Yworld_garry от 01 сентября 2015, 09:39:34Небольшая, но важная рекомендация по ведению своего проекта в поисковиках.
В настоящий момент, достаточно распространен метод обхода того же редиректа внешними факторами.
В панеле веб мастера могут появится и появляются ссылки ссылающихся на вас различных очень не приглядных сайтов, вирусника, варез, проно.
Как и достаточно приличных на первый взгляд, но зараженных и тд и тп
Работает это все так..
Ссылка дается на ваш редирект, редирект отработал и попадает уже на нужный сайт для давшего ссылку на редирект.
На первый взгляд все ок и круто, ссылок внешних прибавилось...но тут и кроется вся прелесть которую можно получить от пс.
Ссылаетесь на варез, проно, вирусню получаем санкции и мего плохую карму для проекта и остальные варианты радостей.

Почему пс засчитывают ссылку, файл же закрыт в robots.txt. Все просто, этот файл не запрет, а рекомендация и отлично отрабатывается внутри сайта/форума, а вот когда внешними ссылками его подсовывают пс, она с радостью его обрабатывает и засчитывает.

Бороться с такими штуками надо кардинально, а именно давая реальный запрет, что может дать файл .htaccess

Как пример ниже, добавим в файл .htaccess несколько строк

SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot


<FilesMatch "^.*go.*$">
Order Allow,Deny
Allow from all
Deny from env=search_bot
</FilesMatch>

Запрещаем доступ выше означенным ботам ко всем файлам содержащим go

Собственно и все, прописали жесткий запрет.



Прописал только один этот жесткий запрет,ради интереса убрал из роботса Disallow: /*go.php.
Заходжу в Яндекс вебмастер и проверяю ответ севера.Итог
Ответ "https://сайт/go.php?" → Основной робот Яндекса
Код статуса HTTP   200 OK
ну и далее содержимое страницы

??? ???