一,前言 回想之前写过的程序,数据都是在内存中,一旦程序运行结束,这些数据都没有了,等下次再想使用这些数据,可是已经没有了。那怎么办呢?能不能把运算完的数据都保存下来,下次程序启动的时候,再把这些数据读出来继续使用呢?其实要把数据持久化存储,就需要把内存中的数据存储到内存以外的其他持久化设备(硬盘、 ...
分类:
编程语言 时间:
2019-04-09 20:54:50
阅读次数:
207
[TOC] 04. 三种数据解析方式 回顾requests实现数据爬取的流程: 1. 指定url 1. 基于requests模块发起请求 1. 获取响应对象中的数据 1. 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都 ...
分类:
其他好文 时间:
2019-04-07 22:05:53
阅读次数:
229
Redis是一个高性能的,开源key-value型数据库。是构建高性能,可扩展的Web应用的完美解决方案,可以内存存储亦可持久化存储。因为要使用跨进程,跨服务级别的数据缓存,在对比多个方案后,决定使用Redis。顺便整理下Redis的安装过程,以便查阅。 1 . 下载Redis 目前,最新的Redi ...
分类:
系统相关 时间:
2019-03-29 17:44:25
阅读次数:
210
面:缓存中间件——Memcached和Redis的区别是什么? 答:Memcached的优点是简单易用,代码层次类似与Hash。支持简单数据类型,但不支持数据持久化存储,也不支持主从同步,也不支持分片。Redis的数据类型丰富,支持数据磁盘持久化存储,支持主从,支持分片。 面:为什么Redis能这么 ...
分类:
其他好文 时间:
2019-03-17 13:50:39
阅读次数:
181
三者都属于Java企业级规范 JPA(java persistence API) JPA 通过JDK5.0的注解或XML来描述 对象-关系表的映射关系,并将运行期的实体对象持久化存储到数据库中。 JTA(java transaction API) JTA允许应用程序执行分布式事务管理,在两个或多个网 ...
分类:
其他好文 时间:
2019-03-17 13:34:17
阅读次数:
222
1. 制作自定义镜像(base基础镜像,搭建共性环境) 基于centos镜像使用commit创建新的镜像文件 基于centos镜像使用Dockerfile文件创建一个新的镜像文件 1.1 使用镜像启动容器 1)在该容器基础上修改yum源 docker_images]# docker run -it ...
分类:
其他好文 时间:
2019-03-08 16:34:20
阅读次数:
155
from qiubaiPro.items import QiubaiproItem class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_ur... ...
分类:
其他好文 时间:
2019-03-05 19:58:20
阅读次数:
171
1.基于终端的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 2.基于管道的持久化存储 scrapy框架中已经为我们专门集成好了高效,便捷,的持久化操作功能,我们直接使用即可.要想使用scrap ...
分类:
其他好文 时间:
2019-03-01 21:07:28
阅读次数:
200
一.Scrapy框架的基础应用 1.Scrapy的概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 2.安装 windows: Linux: ...
分类:
其他好文 时间:
2019-03-01 17:11:43
阅读次数:
186
引入 Scrapy的数据持久化,主要包括存储到数据库、文件以及内置数据存储。 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中。 终端指令存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操 ...
分类:
其他好文 时间:
2019-02-26 23:40:21
阅读次数:
220