把setting中的机器人过滤设为False 1 语法 artcile 选取所有子节点 /article 选取根元素 artile article/a 选取所有属于artile的子元素中的a元素 //div 选取所有 div 元素(不管出现在文档任何位置) article//div 选取所有属于ar ...
分类:
其他好文 时间:
2019-01-17 21:19:52
阅读次数:
242
一、选取节点常用的路径表达式: 二、谓语 谓语被嵌在方括号内,用来查找某个特定的节点或包含某个制定的值的节点 实例: 三、通配符 Xpath通过通配符来选取未知的XML元素 四、取多个路径 使用“|”运算符可以选取多个路径 五、Xpath轴 轴可以定义相对于当前节点的节点集 六、功能函数 使用功能函 ...
分类:
其他好文 时间:
2019-01-12 21:45:42
阅读次数:
238
''' xpath语法: /:在子节点里面找 //:在子子孙孙里面找 //div:查找当前网页的所有div标签 //div/p:先查找所有div标签,再找div的子标签中的p标签 //div//p:现查找所有的div标签,再从div的子孙标签中找到p标签 //div/a:先查找所有div标签,再找d... ...
分类:
编程语言 时间:
2019-01-07 01:41:05
阅读次数:
197
scrapy框架 两种爬虫对比和大概流程 注:spider.py指使用命令行创建的爬虫主文件 [TOC] 1. 传统spider爬虫 创建scrapy项目,首先进入想创建项目的目录,然后cmd输入: spidername就是爬虫文件名 xxxx.com 用于限定爬虫爬取的范围爬虫名,其与项目名不能相 ...
分类:
其他好文 时间:
2018-12-31 15:42:54
阅读次数:
210
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。 1.安装 pip install lxml 2. XPath语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML ...
分类:
其他好文 时间:
2018-11-20 19:43:53
阅读次数:
198
xpath简介 1.xpath使用路径表达式在xml和html中进行导航 2.xpath包含标准函数库 3.xpath是一个w3c的标准 xpath节点关系 1.父节点 2.子节点 3.同胞节点 4.先辈节点 5.后代节点 xpath语法 ...
分类:
其他好文 时间:
2018-10-17 11:10:09
阅读次数:
124
xpath简介 1.xpath使用路径表达式在xml和html中进行导航 2.xpath包含标准函数库 3.xpath是一个w3c的标准 xpath节点关系 1.父节点 2.字节点 3.同胞节点 4.先辈节点 4.后代节点 xpath语法 表达式 | 说明 | article| 选取所有articl ...
分类:
其他好文 时间:
2018-10-12 14:06:08
阅读次数:
155
前言 本文大致可以知道/,//,@,[]的用法,还有一些函数的用法 正文 假设有一个根元素school,一个子元素student,一个属性name和一个子元素age,一个子元素class 语法 school —— 选取school元素的所有节点 /school —— 选取根元素school //st ...
分类:
其他好文 时间:
2018-10-04 19:26:31
阅读次数:
673
【第一部分】开篇:先认识Xpath的4种定位方法 跟你说,你总是靠那个firebug,chrome的F12啥的右击复制xpath绝对总有一天踩着地雷炸的你死活定位不到,这个时候就需要自己学会动手写xpath,人脑总比电脑聪明,开始把xpath语法给我学起来! 第1种方法:通过绝对路径做定位(相信大家 ...
分类:
编程语言 时间:
2018-10-04 09:49:39
阅读次数:
215
前言 这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作。 备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经常使用,学会Xpath解析语法,可为未来爬虫解析省去很多麻烦。 Xpath简介 XPath即为XML ...
分类:
其他好文 时间:
2018-09-24 20:03:27
阅读次数:
244