标签:停止 解析 xpath cookie cond 基础 搜索 web image
9.31
爬取百度
import urllib.request
response=urllib.request.urlopen(‘http://www.baidu.com‘)
print(response.read().decode(‘utf-8‘))
爬取
10.1
10.2
Python 爬虫架构
主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序。
10.3
scrapy框架
scrapy-redis组建
涉及到爬虫-反爬虫-反反爬虫的一些内容UA,代理,验证码,动态页面
fiddler抓包工具
1.配置 tools=>options=>https
选中:capture https
decrypt https trafic
ignore xxx
点击:action ok
配置完成把fiddler关闭重启
一个页面的呈现,中间有好多的http请求,平均一个网页有10-15个http请求
抓包
<>:html内容
{json}:json数据,很可能就是个接口
{css}:css文件
{js}:js文件
停止抓取 : file=>copture 点击就会切换
点击请求:右边选中 Instpectors
右上:http请求信息
raw:请求头部的详细信息
webforns:请求所带参数,query_string
formdata
右下:http响应信息
首先点击黄色条进行解码
raw:响应的所有信息
headers:响应头
json:接口返回内容
左下黑色框,输入指令
clear:清除所有请求
select json:选择所有json请求
select image:选择图片请求
select html:选择html请求
?内容:搜索内容有关的请求
10.4
标签:停止 解析 xpath cookie cond 基础 搜索 web image
原文地址:https://www.cnblogs.com/cui00/p/11663679.html