码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫初学-urllib3

时间:2020-07-18 19:54:57      阅读:63      评论:0      收藏:0      [点我收藏+]

标签:write   ftime   request   man   pen   response   use   程序   pytho   

学习爬虫中,从最近自己写的爬虫小程序中抓截一点代码。加深下记忆。

1.因为我已经安装了Python3,所以使用了urllib3库。

2.要根据对应网页的数据格式进行解码,有的是utf-8,有的是GB2312,当然可能还有其它。否则会报错。


import urllib3
import time

#因为我使用了Python3,所以使用urllib3库
http = urllib3.PoolManager()
response=http.request(‘GET‘,‘https://www.cnblogs.com/‘) 
http_data = response.data.decode(‘utf-8‘) #GB2312

#在抓取的网页数据中查找匹配的数据
User = "齐妙非凡"
if (http_data.find(User,0,len(http_data)) != -1):
    print("找到【%s】的随笔!"%User)
else:
    print("找不到【%s】的随笔!"%User)

#建立文件,保存每次抓取到的网页的内容
data_filename=r‘LOG\%s_data.log‘%(time.strftime(‘%Y%m%d%H%M%S‘))
web_data = open(data_filename,‘w‘,encoding=‘utf-8‘)
web_data.write(http_data)
web_data.close()

Python爬虫初学-urllib3

标签:write   ftime   request   man   pen   response   use   程序   pytho   

原文地址:https://www.cnblogs.com/Wokky/p/13336347.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!