このサイトではないが、管理下にあるサイトにクローラー(Crawler)が多数キている。
クローラーではないモノ(リファラースパムなど)は排除するが、クローラーを排除するのは危険。
検索エンジンでの出現に影響が出るからね。
とはいっても、Google一強の現在、百度(Baidu)やBingは、モハヤ不要?
とユーコトで、
b:crawl.baidu.com
g:googlebot.com
m:search.msn.com
t:twttr.com
の3日間のクロール数を取ってみたトコロ、
2015/11/xx b 37
2015/11/xx g 154
2015/11/xx m 1582
2015/11/xx t 4
2015/11/yy b 41
2015/11/yy g 120
2015/11/yy m 695
2015/11/yy t 7
2015/11/zz b 34
2015/11/zz g 107
2015/11/zz m 911
2015/11/zz t 3
となり、Bing(msn)が突出wwwww
スァルァにその間隔は、
10:00:20
10:00:23
10:03:04
10:03:36
10:04:05
10:04:19
10:05:31
10:06:14
10:06:16
10:06:56
10:07:02
10:07:10
10:07:12
10:07:17
10:08:11
10:09:11
10:09:48
10:10:23
10:11:05
10:11:26
10:12:26
酷杉流wwwww
Crawl-delayで制限(robots.txt)するかね…
User-agent:bingbot
Crawl-delay:30
30は「秒」ね。
# 最大30までという説アリ。
User-agent:msnbot という旧称での指定でもOKなようだが、可能なら新称の「bingbot」としたいね。
関連:Bing Crawler: Bingbot On The Horizon
なお、
User-agent:bingbot
Disallow:
Crawl-delay:30
User-Agent:*
Disallow:
とユーヨーナ書き方だと、2群のトコロで全てのUAに対してCrawl-delayの指定がないため、1群の意味がなくなるので注意。
言うことを聞かないならhttp://www.bing.com/toolbox/webmasterで。
てか、もう.htaccessでDenyしてもいいかなwwwww
イイ鞆ッ~!!(一義惨、古い)
なお、UAは偽装できるので、ホンモノかドーカはIPアドレスで調べるしかないwwwww
ハジカレそうなアヤシイCrawlerは、googlebot.comに偽装して回っている…
意味ヌァイヤンwwwwwwwwww
アヤシイCrawlerは決まりを守らない傾向にあるので、Disallowに書いた非公開URLにロギングツールを仕掛けておき、それに載ったCrawlerは不正/ニセモノだろうとかで排除リストに加える。
クロール間隔の許可間隔を設定しておき、それよりも短いものは排除リストに加える。
とユーヨーナコトをCronで定期的に行えば、新種のCrawlerを自動的に除去できる。
# .htaccessの自動生成はOKだった?
関連:free-floating-buttons.comという不審なアクセス [リファラースパム(referer/referrer spam)]