码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫公开课学习的一天

时间:2020-03-22 19:48:47      阅读:161      评论:0      收藏:0      [点我收藏+]

标签:windows   安装   发送   header   响应   pytho   响应头   自定义   结果   

学习链接http://stu.ityxb.com/openCourses/detail/238

 

什么是爬虫:

  网络爬虫就是模拟浏览器发送网络请求 接受请求响应 按照一定规则 自动抓取互联网信息的程序

爬虫的用途:

  数据采集(百度新闻,今日头条)、12306抢票、网络自动投票、

调试工具:    

  Fn+ F12  

      技术图片

 

 

 

 

 

浏览器的请求过程:

    技术图片

 

 

 

 

 URL规则

    技术图片

 

http请求

      技术图片

 

技术图片

 

 技术图片

 

 http请求重要组成部分

  请求URL、请求方式 (post、GET)、请求头 、请求体

http响应格式

  技术图片

 

 

 http响应重要组成部分

  响应状态码:404、500 、200(成功)

   响应头 、

   响应体(html内容)

Ruquests模块

  是一个python模块,可以模拟浏览器发送请求获取响应

学习资料:

http://cn.python-requests.org/zh_CN/latest/

 

 

 

 

 安装

pip install requests

 

爬取网站步骤:

步骤一:分析

  请求url、请求方式、请求头、请求参数

 

步骤二:模拟浏览器发送请求获取响应

‘‘‘
url https://www.baidu.com/baidu?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
请求方式  get
请求头 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0
请求参数 ?wd=%E7%9F%B3%E5%AE%B6%E5%BA%84%E5%AD%A6%E9%99%A2
‘‘‘
# 1.导入模块
import requests
#2. 模拟发送请求获取响应

response = requests.get(
    url = " https://www.baidu.com/baidu/s",
    headers={
         "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
    }

)

#3. 对响应内容结果进行处理
with open (获取响应内容.html , w,encoding=utf8) as f:
    f.write(response.text)  

 实现自定义请求参数

 

 

 

 

 

 

爬虫公开课学习的一天

标签:windows   安装   发送   header   响应   pytho   响应头   自定义   结果   

原文地址:https://www.cnblogs.com/xingyuner/p/12547596.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!