Beautiful Soup 4.2.0文档阅读笔记
环境:
macOS High Sierra version 10.13.2
安装Beautiful Soup
sudo easy_install beautifulsoup4
安装解析器
sudo easy_install lxml
检测是否安装成功
python
from bs4 import BeautifulSoup

如上图,则安装成功!接着跟着Beautiful Soup 的用法敲一遍代码,熟悉BS的常用用法。

如遇到问题参考python爬虫之Beautiful Soup的基本使用可以解决问题。
输出格式解读
<>标签
[]列表(list)
{}字典
注意
1

注:macOS终端,print语句要有tab缩进,否则报错。
2

注:macOS终端,严格按照代码格式,class = "sister"的等于号前后不能留有空格。
小试牛刀
爬一爬北京大学首页

代码太多,这里只截取了部分。
找到所有的tag

注:如果对Python语法熟悉,可以进一步提取有用信息。不妨爬一爬糗事百科,百度贴吧等。
结尾
BeautifulSoup是HTML源码删、查、改的利器,当你从浩瀚的互联网爬取了海量数据,而急需提取特定的信息,它或许能提供帮助,节省时间。
PS:一入coding深似海,从此妹子是路人。