html 网页源码解析：bs4中BeautifulSoup

时间：2019-08-02 16:15:56 阅读：321 评论：0 收藏：0 [点我收藏+]

标签：coding ring htm prettify attrs children com ret 内容

from bs4 import BeautifulSoup

result=requests.request("get","http://www.baidu.com")
result.encoding="utf-8"
print(result.text) 　　　　　　 #获取源码
soup=BeautifulSoup(result.text,"html.parser") 　　　　 #解析html对象，并赋值给soup

soup.title　　　　　　　　#获取网页第一个标签为“title”内容
soup.title.string)　　　　 #获取第一个标签“title”的纯字符串内容
soup.prettify()　　　　　　#获取html网页源码
soup.input["name"]　　　　#获取网页第一个标签为“input”内name的属性
soup.input.name　　　　　　#获取标签为input的名字，其实就是“input”
soup.input.attrs　　　　　　#取网页第一个标签为“input”内所有属性
soup.input["name"]="test" 　　　　 #修改标签内的属性
del soup.input["name"] 　　　　　　 #删除标签内的属性
soup.input["name2"]="wq123" 　　　　#新增标签内的属性
soup.head.contents　　　　　　#获取标签为head的内容
list(soup.head.children) 　　　　 #获取标签为head的内容,与上面一致
list(soup.head.descendants)　　　　　　#获取标签为head的内容(前面与上面一致,加上-1位号为title内容)
soup.head.parent　　　　　　 #获取标签为head父节点所有内容
soup.head.parent.parent　　　　 #获取标签为head父节点的父节点所有内容
soup.head.next_sibling　　　　　　 #获取标签head同级下一个兄弟节点
soup.head.previous_sibling　　　　　　#获取标签head同级上一个兄弟节点
list(soup.head.next_siblings)　　　　　　#获取标签head同级下一个兄弟节点存储为生成器
list(soup.head.previous_siblings)　　　　　　#获取标签head同级上一个兄弟节点存储为生成器
soup.find_all("a",class_="js_a_so")　　　　　　　　#获取标签为a，class属性为"js_a_so"的所有标签对象　　

html 网页源码解析：bs4中BeautifulSoup

标签：coding ring htm prettify attrs children com ret 内容

原文地址：https://www.cnblogs.com/whitemouseV2-0/p/11288968.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行