标签:http -- 爬取 code 作用 网页数据 ons 解码 细节
import urllib import urllib.request import re #打开京东网页并且进行读取,解码格式utf-8,ignore小细节自动略过,大大减少出错率 #将数据爬到内存中 #http://www.jd.com url = "http://www.jd.com" data = urllib.request.urlopen(url).read().decode("utf-8","ignore") pat = "<title>(.*?)</title>" #re.S模式修正符,网页数据往往是多行的,避免多行的影响 print(re.compile(pat,re.S).findall(data))
import urllib import urllib.request import re url = "http://www.jd.com" #urlretrieve(网址,文件名filename),由于\有转义的作用所以改用为/或者\\ res = urllib.request.urlretrieve(url,filename="D:\\pythonstudy\\pachong\\jd1.html") print(res)
标签:http -- 爬取 code 作用 网页数据 ons 解码 细节
原文地址:https://www.cnblogs.com/u-damowang1/p/12724139.html