码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫基础知识五

时间:2019-08-27 00:38:51      阅读:94      评论:0      收藏:0      [点我收藏+]

标签:ascii   link   爬虫   pytho   pip   字符串   class   元素   交换   

数据提取方法一

利用json

  • 数据交换格式,看起来像python类型(列表,字典)的字符串
  • 使用json之前需要导入 import  json
  • 哪里会返回json的数据
    • 浏览器切换到手机版
    • 抓包app
  • json.loads
    • 把json字符串转换为python类型
    • json.loads(json字符串)
  • json.dumps
    • 把python类型转化为json字符串(用于保存数据到文本中)
    • json.dumps({})
    • json.dumps(ret,ensure_ascii=False,indent=2)
      • ensure_ascii:让中文显示成中文
      • indent:能够让下一级在上一级的基础上空格几个

数据提取方法二

利用xpath

  • xpath
    • 一门从html中提取数据的语言
  • xpath语法
    • xpath helper插件:帮助我们从elments中定位数据
    • 1.选择节点(标签)
      • /html/head/meta:能够选中html下的所有的meta标签
    • 2.//:能够从任意节点开始选择
      • //li :当前页面上所有的li标签
      • /html/head//link :head下的所有的link标签
    • 3.@符号的用途
      • 选择具体的某个元素://div[@class=‘feed‘]/ul/li
        • 选择class=‘feed’的div下的ul下的li
      • a/@href:选择a的href的值
    • 4.获取文本:
      • /a/text():获取a下的文本
      • /a//text():获取a下的所有的文本
    • 5.点前
      • ./a:当前节点下的a标签
  • lxml
    • 安装:pip install lxml
    • 使用
      from lxml import etree
      element=etree.HTML("html字符串")
      element.xpath("")

爬虫基础知识五

标签:ascii   link   爬虫   pytho   pip   字符串   class   元素   交换   

原文地址:https://www.cnblogs.com/-chenxs/p/11415701.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!