Обновление перечня : spiders пауки

Автор Ulibka, 15 июня 2020, 13:28:41

« назад - далее »

0 Пользователи и 1 гость просматривают эту тему.

Ulibka

Перечень пауков (smf_spiders) я не обновлял несколько лет.
Где можно взять свежий перечень пауков?

С грустью наблюдаю что некоторые пауки игнорируют мой robots.txt и лазят по моему серверу, например
Crawler.de
проявляет нездоровую активность.

Нет ли дуста - чтобы их всех потравить?

gorbi

Дуст бесполезен, наверно, ибо они свой индекс продают за деньги. Пробуйте написать им по электропочте

Yarik

Им robots до фени. Баньте диапазоном по IP

Ulibka

S.T.A.L.K.E.R. 
Вы вроде бы писали - что разрабатывали типа небольшого фаервола - может быть им можно попользоваться?

Yarik

Цитата: Ulibka от 15 июня 2020, 18:13:15S.T.A.L.K.E.R.
Вы вроде бы писали - что разрабатывали типа небольшого фаервола - может быть им можно попользоваться?
Файрвол писался под user агент этих ботов.
Они очень быстро научились его обходить.Подменяя свой user агент.

Ulibka

Нашел дуст для ботов - надо записать в файл .htaccess:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(bing|mail|Pinterestbot|magpie).*$ [NC]
RewriteRule .* - [F,L]


Тем у кого nginx - это как то по другому решается

Ulibka

В мой .htaccess вставил все что смог найти по блокировке ботов.
Вроде бы помогло

Order allow,deny
allow from all
Deny from 207.46.13.170   207.46.13. 157.55.39.119 40.77.167. 66.249.70.81 66.249.64.36

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(bing|mail|Pinterestbot|magpie|trendictionbot|petalbot).*$ [NC]
RewriteRule .* - [F,L]


#Закрытие индексации
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "bot" search_bot
SetEnvIfNoCase User-Agent "bing" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
SetEnvIfNoCase User-Agent "^Googlebot-Image" search_bot
SetEnvIfNoCase User-Agent "^StackRambler" search_bot
SetEnvIfNoCase User-Agent "^Adsbot-Google" search_bot
SetEnvIfNoCase User-Agent "^WebAlta" search_bot
SetEnvIfNoCase User-Agent "^Googlebot-Mobile" search_bot
SetEnvIfNoCase User-Agent "^YandexImages" search_bot

Order Allow,Deny
Allow from all
Deny from env=search_bot

RewriteCond %{HTTP_USER_AGENT} Exabot [OR]
RewriteCond %{HTTP_USER_AGENT} bing [OR]
RewriteCond %{HTTP_USER_AGENT} IDBot [OR]
RewriteCond %{HTTP_USER_AGENT} Wotbox [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-image [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-video [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-news [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-favo [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-cpro [OR]
RewriteCond %{HTTP_USER_AGENT} Baiduspider-ads [OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot [OR]
RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} Detectify [OR]
RewriteCond %{HTTP_USER_AGENT} dotbot [OR]
RewriteCond %{HTTP_USER_AGENT} Riddler [OR]
RewriteCond %{HTTP_USER_AGENT} SemrushBot [OR]
RewriteCond %{HTTP_USER_AGENT} LinkpadBot [OR]
RewriteCond %{HTTP_USER_AGENT} BLEXBot [OR]
RewriteCond %{HTTP_USER_AGENT} FlipboardProxy [OR]
RewriteCond %{HTTP_USER_AGENT} aiHitBot [OR]
RewriteCond %{HTTP_USER_AGENT} trovitBot [OR]
RewriteCond %{HTTP_USER_AGENT} Zeus
RewriteRule ^(.*)$ – [F,L]

digger®

Цитата: Ulibka от 16 июня 2020, 15:21:19Нашел дуст для ботов - надо записать в файл .htaccess:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(bing|mail|Pinterestbot|magpie).*$ [NC]
RewriteRule .* - [F,L]


Тем у кого nginx - это как то по другому решается
С учетом того, что mailru является стартовой страницей в интернет у каждого второго россиянина, я бы от их трафика не стал отказываться. Да и bing тоже, он вот в win10 в системном поиске по умолчанию стоит.

Ulibka

Потом буду разрешать, но по немногу.
Сейчас bing ко мне ломанулся целой толпой ботов - это слишком беспардонно.