第一课：网络爬虫准备

时间：2017-04-06 14:47:32 阅读：147 评论：0 收藏：0 [点我收藏+]

标签：robots request 编码 logs 专业状态码 pre 网络请求提交

本课知识路线

　　Requests框架：自动爬取HTML页面与自动网络请求提交

　　robots.txt:网络爬虫排除标准

　　BeautifulSoup框架：解析HTML页面

　　Re框架：正则框架，提取页面关键信息

　　Scrapy框架：网络爬虫原理介绍，专业爬虫框架介绍

#抓取百度页面
import requests

r = requests.get(‘http://www.baidu.com‘)
print(r.status_code)   #状态码，抓取成功200
r.encoding = ‘utf-8‘  #把编码改为utf-8
print(r.text)          #输出抓取内容

Requests库的七个主要方法

requests.request():构造一个请求，支持以下方法的基础方法
requests.get():获取HTML页面的主要方法，对应HTTP的GET
requests.head():获取HTML页面的头部信息方法，对应HTTP的HEAD
requests.post():向HTML页面提交POST请求方法，对应HTTP的POST
requests.put():向HTML页面提交PUT请求方法，对应HTTP的PUT
requests.patch():向HTML页面提交局部修改请求方法，对应HTTP的PATCH
requests.delete():向HTML页面提交删除请求方法，对应HTTP的DELETE

第一课：网络爬虫准备

标签：robots request 编码 logs 专业状态码 pre 网络请求提交

原文地址：http://www.cnblogs.com/jp-mao/p/6673393.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行