抓取指定博客的内容

时间：2017-11-07 01:38:23 阅读：189 评论：0 收藏：0 [点我收藏+]

标签：tar 分享 lis 网页访问 style 扩展 code urllib

1.指定博客的地址

周国平的博客地址：http://blog.sina.com.cn/s/articlelist_1193111400_0_1.html

打开上述链接，然后按F12，找到<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

技术分享

2.代码的实现

指定的网址为：http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html

<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

在上述中我们已经将要指定网址的地址从总的html中找到了，不过这个指定网址还是在标签中

import urllib
str = ‘<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>‘
title = str.find(r‘<a title‘)
print title
herf = str.find(r‘href=‘)
print herf
html = str.find(r‘.html‘)
print html
##获取网址
url = str0[herf +6 :html+5]
print url

content = urllib.urlopen(url).read() ##访问地址并读取其内容

filename = url[-26:]
print filename

open(filename,‘w‘).write(content)