码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫之解析网页的工具pyquery

时间:2017-12-20 15:05:30      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:.text   爬虫   选择器   element   color   gpo   操作   rem   move   


主要是对http://www.cnblogs.com/zhaof/p/6935473.html这篇博客所做的笔记
有疑惑可以去看这篇文章

from pyquery import PyQuery as py


初始化的三种方式
doc = py(html)
doc = py(url="",encoding = ‘utf-8‘)
doc = py(filename = "index.html")


利用css选择器
content = doc()-->括号中加入相关selector
.class 类名
#id id名
* 全部
element 标签名
element1,element2 所有含element1和element2标签名的节点
element1 element2 在element1 中的 elenemt2标签
[element] 属性为element
[name = value] name属性为value的节点
注意:当紧挨着时,表示是并,也就是同时满足


查找元素 ——可以使用css选择器

对于子元素:children() find() ——可以使用css选择器
对于父元素:parent() parents()
对于兄弟元素:siblings()

获取信息
获取属性
pyquery对象.attr(属性名)
pyquery对象.attr.属性名
获取文本
在很多时候我们是需要获取被html标签包含的文本信息,通过.text()就可以获取文本信息
获取html
我们通过.html()的方式可以获取当前标签所包含的html信息
remove
有时候我们获取文本信息的时候可能并列的会有一些其他标签干扰,
这个时候通过remove就可以将无用的或者干扰的标签直接删除,从而方便操作

python爬虫之解析网页的工具pyquery

标签:.text   爬虫   选择器   element   color   gpo   操作   rem   move   

原文地址:http://www.cnblogs.com/wanmudong/p/8073334.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!