码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫抓取百度贴吧帖子内容

时间:2016-09-13 20:33:34      阅读:201      评论:0      收藏:0      [点我收藏+]

标签:

上篇文章已经介绍了抓取糗事百科的段子,这篇文章来抓取百度贴吧帖子内容,涉及到urllib,urllib2,re等模块。

代码实现功能:

  1.获取某一个帖子的标题

  2.获取帖子回复的所有页数,以及每一页的内容

  3.可以只获取楼主的回复(使用数字1声明),或者所有回复(使用数字0声明)

直接使用oop编程的方式编写代码:

代码如下:

#!/usr/bin/env python
#coding:utf8

import urllib
import urllib2
import re

#处理页面标签类
class Tool:
    #去除img标签,7位长空格
    removeImg = re.compile(<img.*?>| {7}|)
    #删除超链接标签
    removeAddr = re.compile(<a.*?>|</a>)
    #把换行的标签换为\n
    replaceLine = re.compile(<tr>|<div>|</div>|</p>)
    #将表格制表<td>替换为\t
    replaceTD= re.compile(<td>)
    #把段落开头换为\n加空两格
    replacePara = re.compile(<p.*?>)
    #将换行符或双换行符替换为\n
    replaceBR = re.compile(<br><br>|<br>)
    #将其余标签剔除
    removeExtraTag = re.compile(<.*?>)
    def replace(self,x):
        x = re.sub(self.removeImg,"",x)
        x = re.sub(self.removeAddr,"",x)
        x = re.sub(self.replaceLine,"\n",x)
        x = re.sub(self.replaceTD,"\t",x)
        x = re.sub(self.replacePara,"\n  ",x)
        x = re.sub(self.replaceBR,"\n",x)
        x = re.sub(self.removeExtraTag,"",x)
        #strip()将前后多余内容删除
        return x.strip()

class BDTB(object):
    #seeLZ: 0:查看所有回复 1:只看楼主回复
    def __init__(self, baseUrl, seeLZ):
        self.baseURL = baseUrl
        self.seeLZ = ?see_lz= + str(seeLZ)
        self.tool = Tool()

    #获取帖子页面数内容  
    def getPage(self, pageNum):
        try:
            url = self.baseURL + self.seeLZ + &pn= + str(pageNum)
            req = urllib2.Request(url)
            response = urllib2.urlopen(req)
            #print response.read()
            html = response.read().decode(utf-8)
            return html

        except urllib2.URLError,e:
            if hasattr(e, reason):
                print u连接百度贴吧失效,错误原因:, e.reason
                return None
    #获取帖子标题
    def getTitle(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r<h3 class="core_title_txt.*?>(.*?)</h3>, re.S)
        result = re.search(pat1, page)
        if result:
            print result.group(1)
        else:
            return None
    #获取帖子回复页数
    def getPageNum(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r<li class="l_reply_num".*?</span>.*?<span.*?>(.*?)</span>, re.S)
        result = re.search(pat1, page)
        if result:
            print result.group(1)
            return int(result.group(1))
        else:
            return None
    #获取帖子回复内容
    def getContent(self, pageNum):
        page = self.getPage(pageNum)
        pat1 = re.compile(r<div id="post_content.*?>(.*?)</div>, re.S)
        items = re.findall(pat1, page)
        # for item in items:
        #     print item
        floor = 1
        for item in items:
            print ‘‘
            print 第%s页的帖子内容: %pageNum
            print floor,u楼-----------------------
            print self.tool.replace(item)
            floor += 1


#调用执行主函数
if __name__ == __main__:
    baseURL = http://tieba.baidu.com/p/3138733512
    bdtb = BDTB(baseURL,0)
    bdtb.getTitle(1)
    page_num = bdtb.getPageNum(1)
    for i in xrange(page_num):
        bdtb.getContent(i+1)

 

爬虫抓取百度贴吧帖子内容

标签:

原文地址:http://www.cnblogs.com/xkops/p/5869509.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!