学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful Soup的使用方法如下:
1、创建Beautiful Soup对象
首先导入bs4库,创建Beautiful Soup对象
|
1
2
|
from
bs4 import BeautifulSoup#导入BeautifulSoup模块soup
= BeautifulSoup(html.decode("utf-8"))#创建BeautifulSoup对 |
2、格式化输出
官方文档实例
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
|
from
BeautifulSoup import BeautifulSoupimport
redoc
= [‘<title>Page
title</title>‘, ‘<p
id="firstpara" align="center">This is paragraph <b>one</b>.‘, ‘</p><p
id="secondpara" align="blah">This is paragraph <b>two</b>.‘]soup
= BeautifulSoup(‘‘.join(doc))print
soup.prettify()#
<title>#
Page title#
</title>#
</p><p id="firstpara" align="center">#
This is paragraph#
<b>#
one#
</b>#
.#
</p>#
<p id="secondpara" align="blah">#
This is paragraph#
<b>#
two#
</b>#
.#
</p> |
后面再补充。。。。
版权声明:本文为博主原创文章,未经博主允许不得转载。
原文地址:http://blog.csdn.net/q51522613/article/details/48089487