サイトのログを解析していると、Crawler(ロボット)が三割以上を占めていることがある。
あるサイトの、ある日の、0時から14時までのログ(PV)
・crawl-%.googlebot.com 13.88%
・msnbot-%.search.msn.com 14.09%
この2つで、約28%にもなる。
他に
・baiduspider-%.crawl.baidu.com
・spider-%.yandex.com
等を含めると、30%を越える。
ロボットと思われるhostを十数種類選択しただけなので、Crawlerの率はこれ以上になる。
何をもってCrawlerとするか、という話だが、少なくとも人間のViewではない。
他にCrawlerの類と思われるもの。
・rate-limited-proxy-%.google.com
・%.amazonaws.com
・%-static.reverse.softlayer.com
・crawl-%.naver.jp
・crawl%.exabot.com
・%.ucri.jgn-x.jp
・%.crawl.%.yahoo.co.jp
・%target.microad.jp
・%cust.bit-drive.ne.jp
アクセスの大半がCrawlerであり、人間にはほとんど見られていないサイトもある。
内部リンクの多いサイトに、その傾向がある。