码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫反爬

时间:2019-11-16 12:40:46      阅读:68      评论:0      收藏:0      [点我收藏+]

标签:机器   直接   技术   问题:   映射关系   rsa   逆向   特殊字符   加密   

反爬技术:

1. UA反爬:携带ua,构建有效ua池;
2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;
3. 数据藏在js脚本:一般使用re提取数据;
4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能,
推荐直接访问接口获取数据。
5. 验证码:
  1 数字+字母 验证码,opencv图像识别技术,打码平台
      2 滑动验证码:...

6. js逆向:常见加密有md5,rsa(非对称加密),des(对称加密),base64编码,js混淆(sojson.v5);
7. 字体加密:找到字体与编码的映射关系表;
8. 数据编码问题:gbk,gbk2312,unicode,url编码,html特殊字符,以及混合编码问题;

爬虫反爬

标签:机器   直接   技术   问题:   映射关系   rsa   逆向   特殊字符   加密   

原文地址:https://www.cnblogs.com/angle6-liu/p/11871298.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!