标签:rap lib 多少 find 模拟登陆 前台 on() pytho 效率
一定要掌握
爬取数据流程:
get,post参数:
处理ajax动态加载的数据:
模拟登陆:
打码平台使用:
cookie的处理:
手动处理
requests.Session()自动处理
aaa=123; time=1506660011
代理ip:
线程池:
图片懒加载: 伪属性所对应的
单线程+多任务异步协程
项目创建流程:
数据解析:
持久化存储:
处理分页数据:
post请求
cookie处理:
日志等级:
请求传参:
使用场景:
如何实现请求传参
yield scrapy.Request/FormRequest(url,callback,formdata)
:meta就会将自己传递给callback,在callback中使用reponse.meta进行字典的接收
五大核心组件原理:
下载中间件:
UA池和代理池:
selenium在scrapy中的应用:
crawlSpider:
scrapy 为何不能实现分布式:
scarpy_redis的作用:
反爬机制总结
robots.txt
UA检测
验证码
数据加密
cookie
禁IP
动态token
数据动态加载
js加密
js混淆
图片懒加载
数据清洗
空值检测 删除空值所在的行数据:df.dropna(axis=0)
空值检测填充空值: df.fillna(method='ffill',axis=0)
异常值检测和过滤:
判定异常值的条件
重复行检测和删除:
df.drop_duplicated(keep='first')
移动端数据的抓取:
抓取过哪些类型的数据,量级是多少?
电商,医疗器械,新闻资讯,股票,金融,招聘,工程招标
100万 剩下的100一下, 20w...
爬虫框架
谈谈对scrapy的了解
如何解析出携带标签的局部页面数据 :
中间件的了解
如何检测网站数据更新?
增量式
定时去爬取, shell脚本定时
深度优先 scrapy默认的 不全部保留节点 占用空间大;运行速度快
广度优先 保留全部节点 占用空间小;运行速度慢
了解过机器学习
sklearn #入门级别,但是封装了很多,可以用
线性回归
KNN (手写数字识别,验证码识别)
预测房价
标签:rap lib 多少 find 模拟登陆 前台 on() pytho 效率
原文地址:https://www.cnblogs.com/Doner/p/11468658.html