码迷,mamicode.com
首页 > 其他好文 > 详细

抓取指定博客的内容

时间:2017-11-07 01:38:23      阅读:189      评论:0      收藏:0      [点我收藏+]

标签:tar   分享   lis   网页   访问   style   扩展   code   urllib   

1.指定博客的地址

周国平的博客地址:http://blog.sina.com.cn/s/articlelist_1193111400_0_1.html

 打开上述链接,然后按F12,找到<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

技术分享

 

2.代码的实现

指定的网址为:http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html

<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>

在上述中我们已经将要指定网址的地址从总的html中找到了,不过这个指定网址还是在标签中

import urllib
str = <a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_471d6f680102x7cu.html">太现实的爱情算不上爱情</a>
title = str.find(r<a title)
print title
herf = str.find(rhref=)
print herf
html = str.find(r.html)
print html
##获取网址
url = str0[herf +6 :html+5]
print url

content = urllib.urlopen(url).read() ##访问地址并读取其内容

filename = url[-26:]
print filename

open(filename,w).write(content)

 

3.抓取指定博客内容总结

  • 获取网址
  • 读取网址的内容
  • 并将网址的内容写到一个文件中

 

4.python小只是扩展及说明

  • find的用法

            find() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回第一次出现的索引值,否则返回-1。

  • 网页的读取

          urllib.urlopen(url).read()

  • 文件的写入

          open(filename,w‘).write(content)

          

抓取指定博客的内容

标签:tar   分享   lis   网页   访问   style   扩展   code   urllib   

原文地址:http://www.cnblogs.com/y15821933792/p/7776510.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!