xpath的| 相当与交集 本爬虫爬取的是热门城市和全国城市,但是由于爬取的规则不同,所以在同一个xpath中使用了两种规则 ...
分类:
其他好文 时间:
2019-08-25 21:37:05
阅读次数:
117
实例爬取 排名 学校名称 总分 1 清华大学 94.6 2 北京大学 76.5 3 浙江大学 72.9 4 上海交通大学 72.1 5 复旦大学 65.6 6 中国科学技术大学 60.9 7 华中科技大学 58.9 7 南京大学 58.9 9 中山大学 58.2 10 哈尔滨工业大学 56.7 11 ...
分类:
其他好文 时间:
2019-08-25 16:02:27
阅读次数:
93
一、背景:在爬取网络小说生成的文件中,发现有些空格没法替换,使用十六进制编辑器查看,发现这些空格字符的十六进制值是“c2a0”,其来源是网页控制的特殊字符,这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。就是 。二、替换的有效方法:使 ...
分类:
其他好文 时间:
2019-08-24 22:31:49
阅读次数:
232
前言 爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉。 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这种情况。 不仅仅是小说,一些其他的数据在多线程爬取时也有类似情况,比如: 它们都有一个共同的特点,那 ...
分类:
编程语言 时间:
2019-08-24 20:34:57
阅读次数:
114
糗图 图片爬取 主要思路 1.来到首页,查看主页有用图片存在html的规律 2.编写re提取图片路径 3.右键图片查看请求图片的具体路径 4.拼接图片请求路径 5.查看下一页界面的路径,找到界面请求路径规律 6.work,多界面爬取指定图片爬虫 import requests import re i ...
分类:
其他好文 时间:
2019-08-24 15:13:24
阅读次数:
76
一 爬虫的初识和价值 什么是爬虫? 爬虫就是通过编写程序 模拟 浏览器上网,让其去互联网上 抓取 数据的过程 爬虫的价值 实际的应用(爬取数据的产品化、商业化) 就业(爬虫工程师紧缺) 二 爬虫的合法性 爬虫本身 在法律上并不被禁止 ,但是具有违法的风险 爬虫所带来的的风险主要体现在一下两个方面: ...
分类:
其他好文 时间:
2019-08-23 15:02:36
阅读次数:
68
目标爬取社会信用码 http://125.35.6.84:81/xk/ 1.首先界面是一个简单的分页查询 2.刷新一下,发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现,是根据之前的ID查询的 7.开始work,首先爬取前面数据的ID, ...
分类:
其他好文 时间:
2019-08-23 13:26:01
阅读次数:
58
[爬虫Demo] pyquery+csv爬取猫眼电影top100 [TOC] 站点分析 https://maoyan.com/board/4?offset=0 翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面 代码君 css选择器直接 ...
分类:
其他好文 时间:
2019-08-22 13:30:32
阅读次数:
111
百度、360搜索引擎的关键字查找爬取 怎么用python代码实现爬取直接输入关键字的百度搜索引擎的内容? params这个参数,他是可以添加内容的。 定义一个关键字,比如是斗破苍穹,喜欢看毛片的朋友也可以改成毛片。然后创建一个键值对,百度的关键字是wd:后面加内容,360的是q,所以写好了以后,在u ...
分类:
其他好文 时间:
2019-08-22 13:09:44
阅读次数:
125