Bing(msn)の襲来を回避する方法 [bingbot,bing,crawl-delay]

インターネット

2015.11.26

この記事は約3分で読めます。

このサイトではないが、管理下にあるサイトにクローラー(Crawler)が多数キている。

クローラーではないモノ(リファラースパムなど)は排除するが、クローラーを排除するのは危険。

検索エンジンでの出現に影響が出るからね。

とはいっても、Google一強の現在、百度(Baidu)やBingは、モハヤ不要？

とユーコトで、

b：crawl.baidu.com
g：googlebot.com
m：search.msn.com
t：twttr.com

の3日間のクロール数を取ってみたトコロ、

2015/11/xx　b　37
2015/11/xx　g　154
2015/11/xx　m　1582
2015/11/xx　t　4

2015/11/yy　b　41
2015/11/yy　g　120
2015/11/yy　m　695
2015/11/yy　t　7

2015/11/zz　b　34
2015/11/zz　g　107
2015/11/zz　m　911
2015/11/zz　t　3

となり、Bing(msn)が突出ｗｗｗｗｗ

スァルァにその間隔は、

10:00:20
10:00:23
10:03:04
10:03:36
10:04:05
10:04:19
10:05:31
10:06:14
10:06:16
10:06:56
10:07:02
10:07:10
10:07:12
10:07:17
10:08:11
10:09:11
10:09:48
10:10:23
10:11:05
10:11:26
10:12:26

酷杉流ｗｗｗｗｗ

Crawl-delayで制限(robots.txt)するかね…

User-agent:bingbot
Crawl-delay:30

30は「秒」ね。

# 最大30までという説アリ。

User-agent:msnbot という旧称での指定でもOKなようだが、可能なら新称の「bingbot」としたいね。

関連：Bing Crawler: Bingbot On The Horizon

なお、

User-agent:bingbot
Disallow:
Crawl-delay:30

User-Agent:*
Disallow:

とユーヨーナ書き方だと、2群のトコロで全てのUAに対してCrawl-delayの指定がないため、1群の意味がなくなるので注意。

言うことを聞かないならhttp://www.bing.com/toolbox/webmasterで。

てか、もう.htaccessでDenyしてもいいかなｗｗｗｗｗ

イイ鞆ッ～！！(一義惨、古い)

なお、UAは偽装できるので、ホンモノかドーカはIPアドレスで調べるしかないｗｗｗｗｗ

ハジカレそうなアヤシイCrawlerは、googlebot.comに偽装して回っている…

意味ヌァイヤンｗｗｗｗｗｗｗｗｗｗ

アヤシイCrawlerは決まりを守らない傾向にあるので、Disallowに書いた非公開URLにロギングツールを仕掛けておき、それに載ったCrawlerは不正/ニセモノだろうとかで排除リストに加える。

クロール間隔の許可間隔を設定しておき、それよりも短いものは排除リストに加える。

とユーヨーナコトをCronで定期的に行えば、新種のCrawlerを自動的に除去できる。

# .htaccessの自動生成はOKだった？