反爬虫——使用chrome headless时一些需要注意的细节

时间：2018-08-23 23:13:20 阅读：3126 评论：0 收藏：0 [点我收藏+]

以前我们介绍过chrome headless的用法（https://www.cnblogs.com/apocelipes/p/9264673.html）。

今天我们要稍微提一下其中一个细节。

反爬和window.navigator对象

navigator对象，一个对大家来说既熟悉又陌生的名词，熟悉是因为在学BOM对象的时候或多或少都见过甚至在代码中使用过，陌生是因为对于navigator对象来说虽然各大浏览器都有实现却一直没有一个统一的标准，所以在不同浏览器上的navigator对象也可能是不一样的，所以不鼓励在生产环境使用，用得少，自然也就陌生了。

然而反爬就是要不从常规处下手，如果有某个特性比较冷僻，又可以用来区分人类用户和爬虫或者增加爬取难度，那么它就一定会被反爬工程师善加利用。今天我们的主角就是navigator对象了。

一般的反爬虫会有header验证，浏览器验证等等，这些在你使用headless browsers时都不成问题，所以反爬工程师们要如何阻止你的爬虫呢？不急，我们先看下正常浏览器里navigator对象的内容：

技术分享图片

这是chrome浏览器，因为headless没办法截图，所以我就把navigator对象的属性全部保存成了文本，这是使用headless时的信息：

vendorSub: 
productSub: 20030107
vendor: Google Inc.
cookieEnabled: true
appCodeName: Mozilla
appName: Netscape
appVersion: 5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...
...
webdriver: true
...
unregisterProtocolHandler: function unregisterProtocolHandler() { [native code] }
deviceMemory: 8
clipboard: {}
...

因为篇幅，我做了节选，需要注意的就是红色的部分，这是相比正常浏览器所多出来的部分。

经常和爬虫打交道的可能已经看出了，这是启用了webdriver协议之后会包含的字段，可是我们使用的chrome headless使用的是devtools protocol啊，怎么也会有这个标志呢？

答案在这里：

技术分享图片