标签:进一步 数据 字符串 数据库 html 额外 二进制 包含 目标
请求网站并提取数据的自动化程序
1.发起请求,通过HTTP库向目标站点发起请求,即发送一个Request,请求包含额外的headers信息
2.获取响应内容,如果服务器正常相应,得到一个Response
3.解析内容,得到的内容可能是HTML,JSON,二进制数,可以保存或进一步处理
4.保存数据,保持形式多样,可以保存到数据库或文本
GET
POST 含有formdata
请求的url ,统一资源定位符
RequestHeaders 请求头 UA Host Cookies
状态码
响应头 set-cookie
响应体
response.headers 响应头
response.status——code 响应状态码
1.网页文本 HTML,JSON,等
2.图片 response.content 响应体的二进制形式
3.视频 二进制抓取
4.其他
1.直接处理 返回字符串
2.Json解析
3.正则表达式
4.BS4 解析库
5.PyQuery
6.Xpath
一些数据都是通过js代码,他们发送ajax请求获取到的后台数据来在前端显示
1.分析ajax请求
2.Selenium/Webdriver
3.Splash
4.pyv8
1.文本
2.数据库
标签:进一步 数据 字符串 数据库 html 额外 二进制 包含 目标
原文地址:https://www.cnblogs.com/zhangqing979797/p/10891312.html