码迷,mamicode.com
首页 > 编程语言 > 详细

用python爬博客

时间:2014-10-24 18:53:56      阅读:227      评论:0      收藏:0      [点我收藏+]

标签:python

用python爬博客

by 伍雪颖

以爬王垠的博客为例:
import re
import urllib2

def getHtmlCode(url):
	return urllib2.urlopen(url).read()

def findTitleUrl(htmlString):
    regTitleUrl = re.compile("href=\"(.+?)\"")
    return regTitleUrl.findall(htmlString)

def findTitleContent(htmlString):
	regTitleContent = re.compile("\">(.+?)</a>")
	return regTitleContent.findall(htmlString)

htmlCode = getHtmlCode('http://www.yinwang.org/')
titleContent = findTitleContent(htmlCode)
titleUrl = findTitleUrl(htmlCode)
for i in range(0, len(titleUrl)):
	print titleContent[i+3]
	print titleUrl[i+8]
	htmlPage = getHtmlCode(titleUrl[i+8])
	f = open("%s.html"%(titleContent[i+3]),'wb')
	f.write(htmlPage)
	f.close


用python爬博客

标签:python

原文地址:http://blog.csdn.net/rainlesvio/article/details/40431325

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!