首页 > 其他好文 > 详细

爬取思想流程

时间：2020-03-27 09:14:41 阅读：98 评论：0 收藏：0 [点我收藏+]

标签：更改检查平台信息 url 距离请求头获取 ip池

爬取思想流程

最近两天写爬虫比较多, 总结一下书写爬虫的思路步骤.

获取url.

浏览器打开.

如果无法直接打开, 则判断哪里有验证,根据平台修改User-Agent等请求头.

信息页面路径上是否有所验证. 登录验证, IP验证. 有则一一解决.

登录验证

登录验证主要分两种:
- 图片验证: 抓下图片, 训练识别.
- 滑块验证: 截图, 缺口距离判断, 模拟操作.
IP限制:
- 维护IP池代理访问

动态页面

信息页面是否为动态页面. 检查源代码与前端显示是否一致.

动态页面:
- js,css,字体: 高效率的方法就是直接通过selenium/puppeteer.获取转化后的页面元素. 也可以根据动态策略一一还原.

页面下拉

页面信息无法一次加载完成, 需不断下拉才能再次加载.

下拉页面:
- 根据js元素操作页面.
- browser driver 发送键盘操作

反selenium策略

页面有反selenium策略.

应对反selenium
- 更改browser driver设置. 隐藏selenium调试标识.
- 使用远程调试
- 避免使用browser driver对js进行操作.

爬虫对弈无止境, 如有新得再补.

爬取思想流程

标签：更改检查平台信息 url 距离请求头获取 ip池

原文地址：https://www.cnblogs.com/jrri/p/12578891.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！