python爬虫之解析网页的工具pyquery

时间：2017-12-20 15:05:30 阅读：140 评论：0 收藏：0 [点我收藏+]

标签：.text 爬虫选择器 element color gpo 操作 rem move


主要是对http://www.cnblogs.com/zhaof/p/6935473.html这篇博客所做的笔记
有疑惑可以去看这篇文章

from pyquery import PyQuery as py

初始化的三种方式
    doc = py(html)
    doc = py(url=""，encoding = ‘utf-8‘)
    doc = py(filename = "index.html")


利用css选择器
    content = doc()-->括号中加入相关selector
      .class  类名
      #id    id名
       *    全部
       element 标签名
       element1,element2 所有含element1和element2标签名的节点
       element1 element2   在element1 中的 elenemt2标签
       [element] 属性为element
      [name = value] name属性为value的节点
      注意：当紧挨着时，表示是并，也就是同时满足


查找元素     ——可以使用css选择器

    对于子元素：children() find()  ——可以使用css选择器
    对于父元素：parent()  parents()
    对于兄弟元素：siblings()

获取信息
    获取属性
        pyquery对象.attr(属性名)
        pyquery对象.attr.属性名
    获取文本
        在很多时候我们是需要获取被html标签包含的文本信息,通过.text()就可以获取文本信息
    获取html
        我们通过.html()的方式可以获取当前标签所包含的html信息
    remove
        有时候我们获取文本信息的时候可能并列的会有一些其他标签干扰，
        这个时候通过remove就可以将无用的或者干扰的标签直接删除，从而方便操作

标签：.text 爬虫选择器 element color gpo 操作 rem move

原文地址：http://www.cnblogs.com/wanmudong/p/8073334.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行