码迷,mamicode.com
首页 > 其他好文 > 详细

简易版爬虫(豆瓣)

时间:2017-07-04 16:37:35      阅读:127      评论:0      收藏:0      [点我收藏+]

标签:eval   direct   find   ret   style   span   lte   get   filter   


import requests
import re
def get_douban():

    res_str = requests.get("https://movie.douban.com/top250?start=0&filter=")

    return res_str.text
def run():

    resong = get_douban()

    obj = re.compile(‘<span class="title">(?P<name>.*?)</span>.*?<span>(?P<evaluate>.*?)</span>.*?‘
                     ‘<p class="">\\n\s+(?P<director>.*?)&nbsp;&nbsp;&nbsp;?‘, re.S)

    ret = obj.finditer(resong)

    return ret
def zuz():

    for i in run():

        yield{"name":i.group(‘name‘),
            "evaluate":i.group(‘evaluate‘),
              "director":i.group(‘director‘)

           }
for i in zuz():

    print(i)

简易版爬虫(豆瓣)

标签:eval   direct   find   ret   style   span   lte   get   filter   

原文地址:http://www.cnblogs.com/lizhaoyu/p/7117235.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!