码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫教程-25-数据提取-BeautifulSoup4(三)

时间:2018-09-06 21:33:38      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:content   提取   tps   sele   http   alt   技术分享   net   笔记   

Python爬虫教程-25-数据提取-BeautifulSoup4(三)

本篇介绍 BeautifulSoup 中的 css 选择器

css 选择器

  • 使用 soup.select 返回一个列表
  • 通过标签名称:soup.select("title")
  • 通过类名:soup.select(".centent")
  • id 查找:soup.select("#name_id")
  • 组合查找:soup.select("div #input_content")
  • 属性查找:soup.select("img[class=‘photo‘]")
  • 获取tag内容:tag.get_text

    案例

  • 代码27bs5.py文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py27bs5.py
# BeautifulSoup 的使用案例
# css 选择器

from urllib import request
from bs4 import BeautifulSoup


url = ‘http://www.baidu.com/‘

rsp = request.urlopen(url)
content = rsp.read()

soup = BeautifulSoup(content, ‘lxml‘)

# bs 自动解码
content = soup.prettify()

print("=="*12)
titles = soup.select("title")
print(titles[0])

print("=="*12)
meta = soup.select("meta[content=‘always‘]")
print(meta[0])

运行结果

技术分享图片


- 本笔记不允许任何个人和组织转载

Python爬虫教程-25-数据提取-BeautifulSoup4(三)

标签:content   提取   tps   sele   http   alt   技术分享   net   笔记   

原文地址:https://www.cnblogs.com/xpwi/p/9600964.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!