码迷,mamicode.com
首页 > 编程语言 > 详细

[Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

时间:2017-06-23 12:57:45      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:数字   针对   orm   file   getcwd   url   pytho   etc   selenium   

一、介绍

    本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息。

    给定关键字:数字;融合;电视

   

 

  二、网站信息

    技术分享

 

 

  三、数据抓取

    针对上面的网站信息,来进行抓取

    1、首先抓取信息列表

      抓取代码:Elements = doc(‘div[class="main_left fl"]‘).find(‘div[class="content"]‘).find(‘ul‘).find(‘li‘)

    2、抓取图片

      抓取代码:imgurl = element(‘a‘).find(‘img‘).attr(‘src‘);

           self.down_picture(imgurl)

   

  四、完整代码

 def down_picture(self, imgurl):
        """
        下载图片到本地
        :param imgurl: 图片url
        """
        # http://img.tvhomeimg.com/uploads/2017/06/23/144910c41de4781ccfe9435e736ef72b.jpg
        if len(imgurl)>0:
            fileName = ‘‘
            if imgurl.rfind(/)>0:
                fileName = imgurl[imgurl.rfind(/) + 1:]
                u = urllib.urlopen(imgurl)
                data = u.read()

                strpath = os.path.dirname(os.getcwd())+\picture
                with open(os.path.join(strpath, fileName), wb) as f:
                    f.write(data)

 

 

[Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

标签:数字   针对   orm   file   getcwd   url   pytho   etc   selenium   

原文地址:http://www.cnblogs.com/shaosks/p/7069078.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!