Bing(msn)の襲来を回避する方法 [bingbot,bing,crawl-delay]

この記事は約3分で読めます。
スポンサーリンク

当サイトには広告が含まれています。

このサイトではないが、管理下にあるサイトにクローラー(Crawler)が多数キている。

クローラーではないモノ(リファラースパムなど)は排除するが、クローラーを排除するのは危険。

検索エンジンでの出現に影響が出るからね。

とはいっても、Google一強の現在、百度(Baidu)やBingは、モハヤ不要?

とユーコトで、

b:crawl.baidu.com
g:googlebot.com
m:search.msn.com
t:twttr.com

の3日間のクロール数を取ってみたトコロ、

2015/11/xx b 37
2015/11/xx g 154
2015/11/xx m 1582
2015/11/xx t 4

2015/11/yy b 41
2015/11/yy g 120
2015/11/yy m 695
2015/11/yy t 7

2015/11/zz b 34
2015/11/zz g 107
2015/11/zz m 911
2015/11/zz t 3

となり、Bing(msn)が突出wwwww

スァルァにその間隔は、

10:00:20
10:00:23
10:03:04
10:03:36
10:04:05
10:04:19
10:05:31
10:06:14
10:06:16
10:06:56
10:07:02
10:07:10
10:07:12
10:07:17
10:08:11
10:09:11
10:09:48
10:10:23
10:11:05
10:11:26
10:12:26

酷杉流wwwww

Crawl-delayで制限(robots.txt)するかね…

User-agent:bingbot
Crawl-delay:30

30は「秒」ね。

# 最大30までという説アリ。

User-agent:msnbot という旧称での指定でもOKなようだが、可能なら新称の「bingbot」としたいね。

関連:Bing Crawler: Bingbot On The Horizon

なお、

User-agent:bingbot
Disallow:
Crawl-delay:30

User-Agent:*
Disallow:

とユーヨーナ書き方だと、2群のトコロで全てのUAに対してCrawl-delayの指定がないため、1群の意味がなくなるので注意。

言うことを聞かないならhttp://www.bing.com/toolbox/webmasterで。

てか、もう.htaccessでDenyしてもいいかなwwwww

イイ鞆ッ~!!(一義惨、古い)

なお、UAは偽装できるので、ホンモノかドーカはIPアドレスで調べるしかないwwwww

ハジカレそうなアヤシイCrawlerは、googlebot.comに偽装して回っている…

意味ヌァイヤンwwwwwwwwww

アヤシイCrawlerは決まりを守らない傾向にあるので、Disallowに書いた非公開URLにロギングツールを仕掛けておき、それに載ったCrawlerは不正/ニセモノだろうとかで排除リストに加える。

クロール間隔の許可間隔を設定しておき、それよりも短いものは排除リストに加える。

とユーヨーナコトをCronで定期的に行えば、新種のCrawlerを自動的に除去できる。

# .htaccessの自動生成はOKだった?

関連:free-floating-buttons.comという不審なアクセス [リファラースパム(referer/referrer spam)]

タイトルとURLをコピーしました