码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫rp+bs4

时间:2017-08-08 16:46:47      阅读:190      评论:0      收藏:0      [点我收藏+]

标签:html_   循环   文本   字符串   文档   pytho   一个   doc   find   

soup = BeautifulSoup(html_doc)

soup 就是BeautifulSoup处理格式化后的字符串,soup.title 得到的是title标签,soup.p 得到的是文档中的第一个p标签,要想得到所有标签,得用find_all

函数。

find_all 函数返回的是一个序列,可以对它进行循环,依次得到想到的东西.

get_text() 是返回文本,这个对每一个BeautifulSoup处理后的对象得到的标签都是生效的。你可以试试 print soup.p.get_text()

其实是可以获得标签的其他属性的,比如我要获得a标签的href属性的值,可以使用 print soup.a[‘href‘],类似的其他属性,比如class也是可以这么得到的(soup.a[‘class‘])。

特别的,一些特殊的标签,比如head标签,是可以通过soup.head 得到,其实前面也已经说了。

python爬虫rp+bs4

标签:html_   循环   文本   字符串   文档   pytho   一个   doc   find   

原文地址:http://www.cnblogs.com/eniac1946/p/7307231.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!