【python】爬取糗事百科段子

时间：2018-04-14 12:33:11 阅读：218 评论：0 收藏：0 [点我收藏+]

标签：auth div nbsp urllib col url int code ber

#-*-coding:utf-8-*-
import urllib
import urllib2
import re
def get_duanzi(url):
    store=[]
    user_agent=‘Mozilla/5.0 (Windows NT 10.0; WOW64)‘
    headers={‘User-Agent‘:user_agent}
    request=urllib2.Request(url,headers=headers)
    response=urllib2.urlopen(request)
    html=response.read().decode(‘utf-8‘)
    pattern=re.compile(‘<div class="author clearfix">.*?<h2>(.*?)</h2>.*?<div.*?span>(.*?)</span>(.*?)<div class="stats">.*?"number">(.*?)</i>‘,re.S)
    results=re.findall(pattern,html)

    for result in results:
        haveImg=re.search("img",result[2])
        if not haveImg:
            store.append([result[0],result[1],result[3]])
    for st in store:
        print st[0]
        print st[1]
        print st[2]
#爬取糗事百科前13页的段子
for page in range(1,14):
    url=‘http://www.qiushibaike.com/hot/page/‘+str(page)
    get_duanzi(url)

【python】爬取糗事百科段子

标签：auth div nbsp urllib col url int code ber

原文地址：https://www.cnblogs.com/bashaowei/p/8830968.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行