python爬取标题和作者时间的小程序

时间：2015-05-20 11:32:48 阅读：169 评论：0 收藏：0 [点我收藏+]

标签：

#encoding:UTF-8
import urllib.parse
import urllib.request
import base64
import re
import sys
import time
from random import sample
import codecs
from html.parser import HTMLParser
log = ‘gogogo.txt‘
logfile = codecs.open(log,‘w‘,‘utf-8‘)
class MyHTMLParser(HTMLParser):
   def __init__(self):
       HTMLParser.__init__(self)
       self.a=0
       self.span=0;
   def handle_starttag(self,tag,attrs):
       if tag==‘a‘:
           for name,value in attrs:
               if name==‘class‘ and value==‘tit‘:
                   self.a=1
       if tag==‘span‘:
           for name,value in attrs:
               if name==‘class‘ and value==‘reply‘:
                   self.span=1
   def handle_endtag(self, tag):
       if tag == ‘a‘ and self.a==1:
           self.a=0
           logfile.write(‘|‘)
       if tag==‘span‘ and self.span==1:
           self.span=0
           logfile.write(‘\n‘)
   def handle_data(self, data):
       if (self.a or self.span):
           logfile.write(data)
parser = MyHTMLParser()

def getpage(url):
   req = urllib.request.Request(url)
   response = urllib.request.urlopen(req)
   the_page = response.read()
   return the_page
for i in range(1,405):
   url=‘http://bbs.qyer.com/forum-52-‘+str(i)+‘.html‘
   page=getpage(url).decode(‘utf-8‘,‘ignore‘)
   parser.feed(page)
   print(i)

python爬取标题和作者时间的小程序

标签：

原文地址：http://my.oschina.net/u/994484/blog/417102

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行