python超精简【博客园】爬虫（果然比C#好用的多）

时间：2017-09-30 17:41:16 阅读：175 评论：0 收藏：0 [点我收藏+]

标签：pre html 正则表达式 imp 技术分享 images www base

无意间看到了网上python爬1024的文章，就想着晚点自己去撸一个全自动小电影下载器（就不用每次选半天了），上班挂着，下班回去就可以看了（身体已经被妹纸掏空了，还看），于是自己先试着写一个简单的爬虫，目标自然是博客园：使用简单的正则表达式匹配，当然也可以使用网上广泛使用的BeautifulSoup解析网页

import requests
import re

baseUrl = "https://www.cnblogs.com/"
html = requests.get(baseUrl).text
items=re.findall("_blank\">(.+)</a></h3>",html)
for i in items:
　　print(i)
print("") 
print("over")

爬的内容非常简单，就是首页上的文章列表，虽然C#也可以做，但是感觉python真的是精简，几句代码就搞定了，厉害了word python！效果如下

技术分享

已经等不及下班回去开干了！

python超精简【博客园】爬虫（果然比C#好用的多）

标签：pre html 正则表达式 imp 技术分享 images www base

原文地址：http://www.cnblogs.com/HelliX/p/7615351.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行