标签:windows 安装 发送 header 响应 pytho 响应头 自定义 结果
学习链接http://stu.ityxb.com/openCourses/detail/238
什么是爬虫:
网络爬虫就是模拟浏览器发送网络请求 接受请求响应 按照一定规则 自动抓取互联网信息的程序
爬虫的用途:
数据采集(百度新闻,今日头条)、12306抢票、网络自动投票、
调试工具:
Fn+ F12
浏览器的请求过程:
URL规则
、
http请求
http请求重要组成部分
请求URL、请求方式 (post、GET)、请求头 、请求体
http响应格式
http响应重要组成部分
响应状态码:404、500 、200(成功)
响应头 、
响应体(html内容)
Ruquests模块
是一个python模块,可以模拟浏览器发送请求获取响应
学习资料:
http://cn.python-requests.org/zh_CN/latest/
安装
pip install requests
爬取网站步骤:
步骤一:分析
请求url、请求方式、请求头、请求参数
步骤二:模拟浏览器发送请求获取响应
‘‘‘ url https://www.baidu.com/baidu?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2 请求方式 get 请求头 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0 请求参数 ?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2 ‘‘‘ # 1.导入模块 import requests #2. 模拟发送请求获取响应 response = requests.get( url = " https://www.baidu.com/baidu/s", headers={ "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0", } ) #3. 对响应内容结果进行处理 with open (‘获取响应内容.html‘ , ‘w‘,encoding=‘utf8‘) as f: f.write(response.text)
实现自定义请求参数
标签:windows 安装 发送 header 响应 pytho 响应头 自定义 结果
原文地址:https://www.cnblogs.com/xingyuner/p/12547596.html