学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful Soup的使用方法如下:
1、创建Beautiful Soup对象
首先导入bs4库,创建Beautiful Soup对象
1
2
|
from
bs4 import BeautifulSoup #导入BeautifulSoup模块 soup
= BeautifulSoup(html.decode( "utf-8" )) #创建BeautifulSoup对 |
2、格式化输出
官方文档实例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
from
BeautifulSoup import BeautifulSoup import
re doc
= [ ‘<title>Page
title</title>‘ , ‘<p
id="firstpara" align="center">This is paragraph <b>one</b>.‘ , ‘</p><p
id="secondpara" align="blah">This is paragraph <b>two</b>.‘ ] soup
= BeautifulSoup( ‘‘ .join(doc)) print
soup.prettify() #
<title> #
Page title #
</title> #
</p><p id="firstpara" align="center"> #
This is paragraph #
<b> #
one #
</b> #
. #
</p> #
<p id="secondpara" align="blah"> #
This is paragraph #
<b> #
two #
</b> #
. #
</p> |
后面再补充。。。。
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/q51522613/article/details/48089487