Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 scrapy 框架 高性能的网络请求 高性能的数据解析 高性能的持久化存储 深度爬取 全站爬取 分布式 中间件 请求传参 环境的安装 mac/linux:pip i ...
分类:
其他好文 时间:
2019-10-20 21:39:27
阅读次数:
112
[TOC] 一.DRF中的Request 在Django REST Framework中内置的Request类扩展了Django中的Request类, 实现了很多方便的功能 如请求数据解析和认证等. 比如, 区别于Django中的request: 从 中获取URL参数, 从 中去取某些情况下的POS ...
分类:
其他好文 时间:
2019-10-08 12:34:18
阅读次数:
79
框架:继承了很多功能并且具有很强通用性的项目模板 scrapy:高性能的持久化存储,异步的数据下载,高性能数据解析,分布式 环境安装: linux和mac操作系统: pip install scrapy pip install scrapy windows系统: pip install wheel ...
分类:
其他好文 时间:
2019-10-04 18:56:30
阅读次数:
89
因为导出表格用的是 $("#id").html() 的数据,导致导出的 表头是重复的。 datatable 增加了滚动条就会导致 html 的表头重复,多出来的表头 height = 0px 。 应该是使用字符串截取的方法,比较好,或者,修改 从 html 到 excel 的数据解析过程。 ...
分类:
Web程序 时间:
2019-09-24 15:48:37
阅读次数:
149
Ajax应用中数据解析是非常重要的一件事情。一般服务器返回数据有三种格式:txt , xml, json 1、解析txt 当服务器返回的数据为字符串,则这种Ajax数据格式就是txt。在浏览器端,我们通过responseText来获取字符串形式的相应数据。 2、解析xml 当服务器端返回数据为xml ...
分类:
Web程序 时间:
2019-09-20 20:51:28
阅读次数:
108
回顾 5种反爬机制 robots.txt:反爬机制,防君子不防小人 UA检测:UA伪装 数据加密 图片懒加载 代理ip requests模块爬取流程: 指定url 发起请求 获取页面数据 数据解析 持久化存储 bs4解析: 环境安装:bs4、lxml解析器 实例化bs对象,将页面源码数据加载到该对象 ...
分类:
编程语言 时间:
2019-09-19 23:28:00
阅读次数:
178
上一篇说完了如何爬取一个网页,以及爬取中可能遇到的几个问题。那么接下来我们就需要对已经爬取下来的网页进行解析,从中提取出我们想要的数据。 根据爬取下来的数据,我们需要写不同的解析方式,最常见的一般都是HTML数据,也就是网页的源码,还有一些可能是Json数据,Json数据是一种轻量级的数据交换格式, ...
分类:
编程语言 时间:
2019-09-17 13:08:15
阅读次数:
98
[TOC] 数据解析 数据解析相关 正则 解析 bs4 解析 准备资料 (test.html 本地存储) bs4 使用示列 bs4 解析应用 爬取三国整篇内容(章节名称+章节内容) xpath 解析 xpath 解析示例 xpath 解析爬取糗百中的段子内容和作者名称 xpath 解析下载美女图片 ...
分类:
其他好文 时间:
2019-09-12 09:50:00
阅读次数:
69
Scrapy框架介绍: 写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率) ...
分类:
其他好文 时间:
2019-09-11 11:25:09
阅读次数:
124
--数据解析原理 --定位标签 --提取标签中存储的数据 --xpath解析原理 --实例化一个etree的对象且将解析的页面源码数据加载到该对象中 --通过xpath方法(返回值:列表)结合者xpath表达式进行数据解析 -- //tagName -- //tagName[@attr = 'val ...
分类:
编程语言 时间:
2019-09-11 09:48:01
阅读次数:
94