标签:基于 讲解 robots 实现 模块 robot 基本 pen 处理模块
urllib库是python内置的一个http请求库
其实urllib库不好用,没有requests库好用,下一篇文章再写requests库,requests库是基于urllib库实现的
作为最最基本的请求库,了解一下原理还是很有必要的
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块,判断哪个网站可以爬,哪个不可以爬,用的比较少
在python2中:
import urllib2
response = urllib2.urlopen(‘http://www.baidu.com‘)
在python3中:
import urllib.request.urlopen(‘http://www.baidu.com‘)
标签:基于 讲解 robots 实现 模块 robot 基本 pen 处理模块
原文地址:https://www.cnblogs.com/ronghe/p/9157863.html