码迷,mamicode.com
首页 > 编程语言 > 详细

python之Beautiful Soup库

时间:2018-11-17 14:40:41      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:快速   import   highlight   解释器   Python标准库   简介   syn   技术   编码方式   

1、简介

  简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

  Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

  Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

  Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

2、环境安装

  Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 from bs4 import BeautifulSoup  。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

  1、快速安装

1
pip install beautifulsoup4

  2、如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法

    1、Beautiful Soup3.2.1

    https://pypi.python.org/pypi/BeautifulSoup/3.2.1

    2、Beautiful Soup4.3.2

      https://pypi.python.org/pypi/beautifulsoup4/

    下载完成之后解压

    运行下面的命令即可完成安装

     python setup.py install

  3、然后需要安装 lxml

   pip install lxml

   另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

   pip install html5lib

    Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。

  技术分享图片

3. 使用方法

  最佳方法参考官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

python之Beautiful Soup库

标签:快速   import   highlight   解释器   Python标准库   简介   syn   技术   编码方式   

原文地址:https://www.cnblogs.com/xiaobingqianrui/p/9973505.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!