码迷,mamicode.com
首页 > 编程语言 > 详细

python之屏幕抓取

时间:2018-09-25 15:29:25      阅读:437      评论:0      收藏:0      [点我收藏+]

标签:board   job   form   compile   表达式   过程   网页   代码   for   

Tidy 和 HTML 解析

Beautiful Soup

 

  屏幕抓取:是通过程序下载网页并从中提取信息的过程。

  简单来见:下载数据并对其进行分析

  思路:可使用urllib来获取网页的HTML代码,再使用正则表达式从中提取信息。

  例如:假设要从python Job Board(http://python.org/jobs)提取招聘单位的名称和网站。

  通过查看该网站的源代码,可发现类似于下面的链接中找到名称和URL:

<a href="/jobs/1970/">Python Engineer</a>

  如下:简单的屏幕抓取程序

from urllib.request import urlopen
import re
p = re.compile(<a href="(/jobs/\\d+)/">(.*?)</a>)
text = urlopen(http://python.org/jobs).read().decode()
for url,name in p.findall(text):
    print({}({}).format(name,url))

待补充~

python之屏幕抓取

标签:board   job   form   compile   表达式   过程   网页   代码   for   

原文地址:https://www.cnblogs.com/FlameLuo/p/9699444.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!