码迷,mamicode.com
首页 > Web开发 > 详细

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

时间:2020-04-18 10:05:54      阅读:91      评论:0      收藏:0      [点我收藏+]

标签:http   --   爬取   code   作用   网页数据   ons   解码   细节   

  • 将数据爬取到内存中
    • import urllib
      import urllib.request
      import re
      #打开京东网页并且进行读取,解码格式utf-8,ignore小细节自动略过,大大减少出错率
      #将数据爬到内存中
      #http://www.jd.com
      url = "http://www.jd.com"
      data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
      pat = "<title>(.*?)</title>"
      #re.S模式修正符,网页数据往往是多行的,避免多行的影响
      print(re.compile(pat,re.S).findall(data))
  • 将数据爬取到硬盘中
    • import urllib
      import urllib.request
      import re
      url = "http://www.jd.com"
      #urlretrieve(网址,文件名filename),由于\有转义的作用所以改用为/或者\\
      res = urllib.request.urlretrieve(url,filename="D:\\pythonstudy\\pachong\\jd1.html")
      print(res)

       

    • 技术图片技术图片

       

使用Urllib爬虫(1)--简单的将数据爬到内存或硬盘中

标签:http   --   爬取   code   作用   网页数据   ons   解码   细节   

原文地址:https://www.cnblogs.com/u-damowang1/p/12724139.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!