Beautiful Soup 4.2.0文档阅读笔记
环境:
macOS High Sierra version 10.13.2
安装Beautiful Soup
sudo easy_install beautifulsoup4
安装解析器
sudo easy_install lxml
检测是否安装成功
python
from bs4 import BeautifulSoup
如上图,则安装成功!接着跟着Beautiful Soup 的用法敲一遍代码,熟悉BS的常用用法。
如遇到问题参考python爬虫之Beautiful Soup的基本使用可以解决问题。
输出格式解读
<>
标签
[]
列表(list)
{}
字典
注意
1
注:macOS终端,print
语句要有tab
缩进,否则报错。
2
注:macOS终端,严格按照代码格式,class = "sister"
的等于号前后不能留有空格。
小试牛刀
爬一爬北京大学首页
代码太多,这里只截取了部分。
找到所有的tag
注:如果对Python语法熟悉,可以进一步提取有用信息。不妨爬一爬糗事百科,百度贴吧等。
结尾
BeautifulSoup是HTML源码删
、查
、改
的利器,当你从浩瀚的互联网爬取了海量数据,而急需提取特定的信息,它或许能提供帮助,节省时间。
PS:一入coding深似海,从此妹子是路人。