震惊,大多数互联网用户都不是人
网站安全和内容分发公司Incapsula发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。
爬虫机器人因为功能和目的不同分为这几类:
Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。Google就使用这个爬虫整理全世界的信息。
RSS bots:订阅类爬虫,能够从网站抓取内容聚合起来,鲜果、今日头条和网页新闻客户端就使用了这类爬虫。
Scrapers:网页爬虫,一般是盗取内容、邮箱地址和逆向破解定价模型,它可以作用在电子商务网站。
Impersonator:拟人伪装爬虫,它能够伪装成搜索引擎或者浏览器,以避免被网站发现。它能够搜集营销情报,发动DDos攻击,消耗带宽甚至使网站瘫痪。
Hacking Tools:黑客工具,它能够盗取信息,植入流氓软件,破坏网页内容甚至劫持网站和服务器。
Spammers:垃圾邮件发送工具,它可以骚扰普通访客,发布无关内容或者钓鱼链接。它还可以加载过量链接,让网站进入搜索引擎的黑名单而从互联网“消失”。
在56 %的访问中,恶意爬虫机器人占比29%,善意占比27%。随着RSS爬虫的减少,善意爬虫的比例更小了。
大部分网站的爬虫访问比例在63%到80%之间,越小的网站爬虫访问的比例越高。搜索引擎爬虫是这一现象的主要原因,它对小网站和大网站几乎无差别对待,而平均每个网站一天要被谷歌的搜索引擎爬虫访问187次。
拟人伪装爬虫增长很快,它是过去3年里唯一持续增长的爬虫。在上面提到的Google搜索引擎爬虫中,平均来说每24次访问就会有一个伪装爬虫来访。在这些伪装爬虫中,25.16%来自美国,中国占比15.61%,是第二大的来源国。
RSS爬虫逐渐走向衰落。老一代RSS工具,例如Google Reader、鲜果都已经走向死亡。
Incapsula的数据来源于20000个每天至少有10个访问量的网站,它整理了过去90天的150亿次访问数据得出了这个结果。
我们的所见所得,数据安全,带宽消耗和广告浏览都和爬虫机器人息息相关,它们重塑了我们工作和生活的方式。