标签:更改 检查 平台 信息 url 距离 请求头 获取 ip池
最近两天写爬虫比较多, 总结一下书写爬虫的思路步骤.
获取url.
浏览器打开.
如果无法直接打开, 则判断哪里有验证,根据平台修改User-Agent等请求头.
信息页面路径上是否有所验证. 登录验证, IP验证. 有则一一解决.
登录验证主要分两种:
IP限制:
信息页面是否为动态页面. 检查源代码与前端显示是否一致.
页面信息无法一次加载完成, 需不断下拉才能再次加载.
页面有反selenium策略.
爬虫对弈无止境, 如有新得再补.
标签:更改 检查 平台 信息 url 距离 请求头 获取 ip池
原文地址:https://www.cnblogs.com/jrri/p/12578891.html