标签:代码 response res sql json 文件中 内容 表达 bsp
模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中
1.发送请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头,请求体
2.获取响应内容b
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3.解析内容
解析html数据:正则表达式,第三方解析库和Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件
4.保存数据
数据库
文件
1.总结爬虫流程:
爬虫----->解析------->存储
2.爬虫所需工具
请求库:request,selenium
解析库:正则,beautifulsoup,pyquery
存储库:文件,MySQL,Mongodb,Redis
3.爬虫常用框架:
scrapy
标签:代码 response res sql json 文件中 内容 表达 bsp
原文地址:https://www.cnblogs.com/s686zhou/p/11973644.html