码迷,mamicode.com
首页 > 编程语言 > 详细

python超精简【博客园】爬虫(果然比C#好用的多)

时间:2017-09-30 17:41:16      阅读:175      评论:0      收藏:0      [点我收藏+]

标签:pre   html   正则   表达式   imp   技术分享   images   www   base   

无意间看到了网上python爬1024的文章,就想着晚点自己去撸一个全自动小电影下载器(就不用每次选半天了),上班挂着,下班回去就可以看了(身体已经被妹纸掏空了,还看),于是自己先试着写一个简单的爬虫,目标自然是博客园:使用简单的正则表达式匹配,当然也可以使用网上广泛使用的BeautifulSoup解析网页

import requests
import re

baseUrl = "https://www.cnblogs.com/"
html = requests.get(baseUrl).text
items=re.findall("_blank\">(.+)</a></h3>",html)
for i in items:
  print(i)
print("") 
print("over")

爬的内容非常简单,就是首页上的文章列表,虽然C#也可以做,但是感觉python真的是精简,几句代码就搞定了,厉害了word python!效果如下

技术分享

已经等不及下班回去开干了!

python超精简【博客园】爬虫(果然比C#好用的多)

标签:pre   html   正则   表达式   imp   技术分享   images   www   base   

原文地址:http://www.cnblogs.com/HelliX/p/7615351.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!