码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫学习(一)

时间:2019-02-11 21:25:46      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:utf8   parse   发送   pen   html   学习   一个   模拟浏览器   ons   

url:统一资源定位符

网址,a链接,可以根据url获取指定的数据

聚焦爬虫:根据特定的需求,从网上把数据去下来

爬虫实现的思路:

       网页的特点:每个网页有自己的url

       网页是由HTML组成的

       网页传输的时候使用http和https协议

爬取的思路:

       使用一个url

       写python代码,模拟浏览器发送http请求

       解析数据,提取出来指定的数据,通过一定的规则来进行。

urllib库

      作用:是python用来模拟http请求的库,他是python自带的库

       urllib.request         模拟浏览器发送求情

       urllib.parse            处理URL或是他们的参数

       urllib.error             抛出异常,用来处理发送请求时候出现的异常

       urllib.request.urlopen():           专门来处理url进行数据的读取

response.read():以二进制来进行数据的读取

网上能碰到的编码个是只有两种

         GBK

         UTF8

二进制转化成为字符串:decode()       相当于解码

字符串变为二进制:encode()               相当于编码

      

更多HTTP协议问题请参考

https://blog.csdn.net/gueter/article/details/1524447

爬虫学习(一)

标签:utf8   parse   发送   pen   html   学习   一个   模拟浏览器   ons   

原文地址:https://www.cnblogs.com/kuangkuangduangduang/p/10363125.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!