首页 > 编程语言 > 详细

python2.7 beautifulsoup学习使用

时间：2015-08-29 18:49:20 阅读：211 评论：0 收藏：0 [点我收藏+]

标签：贪玩小神-数据分析 python 库正则表达式

学习使用python的beautiful soup库，大大方便了网络爬虫对于HTML文件的解析，beautiful soup将HTML拆解成对象处理，将HTML转换成字典和数组，相比利用正则表达式解析的爬虫，省略了学习正则表达式的高成本

说人话就是正则表达式太难了，博主学不会！

本篇只介绍Beautiful Soup的使用，不涉及安装、配置。

Beautiful Soup的使用方法如下：

1、创建Beautiful Soup对象

首先导入bs4库，创建Beautiful Soup对象

?

1

2

`from bs4 import BeautifulSoup#导入BeautifulSoup模块`

`soup = BeautifulSoup(html.decode("utf-8"))#创建BeautifulSoup对`

2、格式化输出

官方文档实例

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

`from BeautifulSoup import BeautifulSoup`

`import re`

`doc = [‘<title>Page title</title>‘,`

       `‘<p id="firstpara" align="center">This is paragraph <b>one</b>.‘,`

       `‘</p><p id="secondpara" align="blah">This is paragraph <b>two</b>.‘]`

`soup = BeautifulSoup(‘‘.join(doc))`

`print soup.prettify()`

`#   <title>`

`#    Page title`

`#   </title>`

`#   </p><p id="firstpara" align="center">`

`#    This is paragraph`

`#    <b>`

`#     one`

`#    </b>`

`#    .`

`#   </p>`

`#   <p id="secondpara" align="blah">`

`#    This is paragraph`

`#    <b>`

`#     two`

`#    </b>`

`#    .`

`#   </p>`

后面再补充。。。。

版权声明：本文为博主原创文章，未经博主允许不得转载。

python2.7 beautifulsoup学习使用

标签：贪玩小神-数据分析 python 库正则表达式

原文地址：http://blog.csdn.net/q51522613/article/details/48089487

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！