爬虫学习（一）

时间：2019-02-11 21:25:46 阅读：222 评论：0 收藏：0 [点我收藏+]

url：统一资源定位符

网址，a链接，可以根据url获取指定的数据

聚焦爬虫：根据特定的需求，从网上把数据去下来

爬虫实现的思路：

网页的特点：每个网页有自己的url

网页是由HTML组成的

网页传输的时候使用http和https协议

爬取的思路：

使用一个url

写python代码，模拟浏览器发送http请求

解析数据，提取出来指定的数据，通过一定的规则来进行。

urllib库

作用：是python用来模拟http请求的库，他是python自带的库

urllib.request 模拟浏览器发送求情

urllib.parse 处理URL或是他们的参数

urllib.error 抛出异常，用来处理发送请求时候出现的异常

urllib.request.urlopen(): 专门来处理url进行数据的读取

response.read()：以二进制来进行数据的读取

网上能碰到的编码个是只有两种

GBK

UTF8

二进制转化成为字符串：decode() 相当于解码

字符串变为二进制：encode() 相当于编码

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447

原文地址：https://www.cnblogs.com/kuangkuangduangduang/p/10363125.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行