python之屏幕抓取

时间：2018-09-25 15:29:25 阅读：437 评论：0 收藏：0 [点我收藏+]

标签：board job form compile 表达式过程网页代码 for

Tidy 和 HTML 解析

Beautiful Soup

屏幕抓取：是通过程序下载网页并从中提取信息的过程。

简单来见：下载数据并对其进行分析

思路：可使用urllib来获取网页的HTML代码，再使用正则表达式从中提取信息。

例如：假设要从python Job Board（http://python.org/jobs）提取招聘单位的名称和网站。

通过查看该网站的源代码，可发现类似于下面的链接中找到名称和URL：

<a href="/jobs/1970/">Python Engineer</a>

如下：简单的屏幕抓取程序

from urllib.request import urlopen
import re
p = re.compile(‘<a href="(/jobs/\\d+)/">(.*?)</a>‘)
text = urlopen(‘http://python.org/jobs‘).read().decode()
for url,name in p.findall(text):
    print(‘{}({})‘.format(name,url))

待补充～

python之屏幕抓取

标签：board job form compile 表达式过程网页代码 for

原文地址：https://www.cnblogs.com/FlameLuo/p/9699444.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行