码迷,mamicode.com
首页 > 其他好文 > 详细

Beautiful Soup 4.2.0文档阅读笔记

时间:2018-03-26 20:44:27      阅读:166      评论:0      收藏:0      [点我收藏+]

标签:pip   doc   imp   raw   inf   odi   src   int   port   

Beautiful Soup 4.2.0文档阅读笔记

环境:

macOS High Sierra version 10.13.2

Beautiful Soup 4.2.0 文档

安装Beautiful Soup

sudo easy_install beautifulsoup4

关于easy_install和pip

安装解析器

sudo easy_install lxml

检测是否安装成功

python

from bs4 import BeautifulSoup

技术分享图片
如上图,则安装成功!接着跟着Beautiful Soup 的用法敲一遍代码,熟悉BS的常用用法。
技术分享图片

如遇到问题参考python爬虫之Beautiful Soup的基本使用可以解决问题。

输出格式解读

<>标签

[]列表(list)

{}字典

注意

1

技术分享图片

注:macOS终端,print语句要有tab缩进,否则报错。

2

技术分享图片

注:macOS终端,严格按照代码格式,class = "sister"的等于号前后不能留有空格。

小试牛刀

爬一爬北京大学首页

技术分享图片

代码太多,这里只截取了部分。

找到所有的tag

技术分享图片

注:如果对Python语法熟悉,可以进一步提取有用信息。不妨爬一爬糗事百科,百度贴吧等。

结尾

BeautifulSoup是HTML源码的利器,当你从浩瀚的互联网爬取了海量数据,而急需提取特定的信息,它或许能提供帮助,节省时间。

PS:一入coding深似海,从此妹子是路人。

Beautiful Soup 4.2.0文档阅读笔记

标签:pip   doc   imp   raw   inf   odi   src   int   port   

原文地址:https://www.cnblogs.com/narisu/p/8653237.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!