一、静态数据、流数据 以及 批量计算、实时计算 大数据分类两类:静态数据和动态数据(流数据)。针对这两类数据的计算模式分别是批量计算和实时计算。 静态数据:历史数据持久化存储在系统里,这类数据的特点是数据量大、数量有限(数据的时间区间是确定的)。例如企业为了支持决策分析而构建的数据仓库系统。 对这类 ...
分类:
其他好文 时间:
2019-06-14 23:54:29
阅读次数:
224
上一篇文章我们初步体验了AKS pod挂载Azure Disk的流程,这篇文章我们来正式部署一个mysql的服务来看下。 首先准备一个PVC,命名为mysql-pvc.yaml,内容如下: 编辑后执行: 完了部署mysql, 创建mysql.yml如下: 执行kubectl apply -f mys ...
分类:
其他好文 时间:
2019-06-12 19:41:02
阅读次数:
174
数据库的基本概念什么是数据库?用于存储和管理数据的仓库。数据库的特点:持久化存储数据的。其实数据库就是一个文件系统方便存储和管理数据使用了统一的方式操作数据库 – SQL数据库的分类:数据库根据存储采用的数据结构的不同可以分为许多种,其中包含早期的层次式数据库、网络式数据库。目前占市场主流的是关系型 ...
分类:
数据库 时间:
2019-06-09 10:04:04
阅读次数:
112
- scrapy:爬虫框架。异步爬取,高性能的数据解析+持久化存储操作,- 框架:集成了很多功能且具有很强通用性的一个项目模板- 如何学习框架: - 学习框架的功能模块的具体使用。- 环境的安装: a. pip3 install wheel b. 下载twisted http://www.lfd.u ...
分类:
其他好文 时间:
2019-06-03 21:32:55
阅读次数:
91
1.scrapy:爬虫框架 -框架:集成了很多功能且具有很强通用性的一个项目模板 -如何学习框架:(重点:知道有哪些模块,会用就行) -学习框架的功能模板的具体使用. 功能:(1)异步爬取(自带buffer) (2)高性能的数据解析+持久化存储操作. 2.scrapy环境安装: 3.scrapy数据 ...
分类:
其他好文 时间:
2019-05-31 23:17:31
阅读次数:
110
一.基本概念 二. 环境的安装 Linux系统: pip3 install scrapy 三. 使用流程 四.基本结构: 爬虫文件 示例: 五.持久化存储 1.基于终端指令存储 2.基于管道的持久化存储 setting配置文件中 ...
分类:
其他好文 时间:
2019-05-31 19:59:24
阅读次数:
101
这个案例主要是在乌托家网站上爬取家具公司的数据,用的方法是requests模块和xpath语法。代码如下: ...
分类:
编程语言 时间:
2019-05-31 01:23:42
阅读次数:
138
下面介绍一种用于持久化存储数据的简单的方式:通过txt文档进行数据的持久化存储,我们可以通过txt文档的方式存储保存的内容数据,也可以存储相应的配置信息的数据,这些我们都可以通过txt文档的方式进行存储, 只有持久化的数据才能更加利于我们每次查看数据更加的直观,同时每次修改数据也更加容易,今天我们介 ...
分类:
其他好文 时间:
2019-05-31 01:22:50
阅读次数:
86
一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储 二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解析 1. 正则解析 常用正则表达式 正则使用练习: 应用: 爬取糗事百科指定页面的糗图,并将其保存到 ...
分类:
编程语言 时间:
2019-05-29 17:57:08
阅读次数:
128
MemCache与redis的区别 Memcache:代码层次类似于Hash 支持简单数据类型 不支持数据持久化存储 不支持主动 不支持分片 Redis:键值对存储结构 类似HashMap 数据类型丰富 支持数据磁盘持久化存储 支持主从 支持分片 Redis数据类型 String:最基本的数据类型, ...
分类:
其他好文 时间:
2019-05-25 20:16:55
阅读次数:
144