码迷,mamicode.com
首页 > 编程语言 > 详细

python2.7 beautifulsoup学习使用

时间:2015-08-29 18:49:20      阅读:211      评论:0      收藏:0      [点我收藏+]

标签:贪玩小神-数据分析   python      正则表达式   

    学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本


    说人话就是正则表达式太难了,博主学不会!


    本篇只介绍Beautiful Soup的使用,不涉及安装、配置。


    Beautiful Soup的使用方法如下:


    1、创建Beautiful Soup对象


    首先导入bs4库,创建Beautiful Soup对象


     


    ?
    1
    2
    from bs4 import BeautifulSoup#导入BeautifulSoup模块
    soup = BeautifulSoup(html.decode("utf-8"))#创建BeautifulSoup对

    2、格式化输出


    官方文档实例


    ?
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    from BeautifulSoup import BeautifulSoup
    import re
     
    doc = [‘<title>Page title</title>‘,
           ‘<p id="firstpara" align="center">This is paragraph <b>one</b>.‘,
           ‘</p><p id="secondpara" align="blah">This is paragraph <b>two</b>.‘]
    soup = BeautifulSoup(‘‘.join(doc))
     
    print soup.prettify()
    #   <title>
    #    Page title
    #   </title>
    #   </p><p id="firstpara" align="center">
    #    This is paragraph
    #    <b>
    #     one
    #    </b>
    #    .
    #   </p>
    #   <p id="secondpara" align="blah">
    #    This is paragraph
    #    <b>
    #     two
    #    </b>
    #    .
    #   </p>

    后面再补充。。。。


版权声明:本文为博主原创文章,未经博主允许不得转载。

python2.7 beautifulsoup学习使用

标签:贪玩小神-数据分析   python      正则表达式   

原文地址:http://blog.csdn.net/q51522613/article/details/48089487

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!