先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特 ...
分类:
其他好文 时间:
2019-01-22 10:57:06
阅读次数:
256
Elasticsearch简单介绍 Elasticsearch (ES)是一个基于Lucene构建的开源、分布式、RESTful 接口全文搜索引擎。Elasticsearch 还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索,它能够扩展至数以百计的服务器存储以及处理PB级的数据。它可 ...
分类:
其他好文 时间:
2019-01-18 23:55:53
阅读次数:
200
参考 :https://blog.csdn.net/xiexievv/article/details/47396725 下载代码 : git clone https://github.com/google/protobuf 进入目录 : cd prootbuf ./autogen.sh $ ./co ...
分类:
系统相关 时间:
2019-01-17 12:51:41
阅读次数:
286
第1章 用PLSQL连接Oracle数据库 PLSQL只能用来连接Oracle数据库(不象PB还可以连接JDBC、ODBC),所以必须首先安装并配置Oracle客户端。 §1.1 初次登录PLSQL: 运行PLSQL通过如下界面连接Oracle数据库: Database的下拉列表中自动列出了Orac ...
分类:
数据库 时间:
2019-01-17 01:17:25
阅读次数:
372
一. HBase的特点 1. 海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。 2. 列式存储 这里的列式存储其实说的是列族存储 ...
分类:
其他好文 时间:
2019-01-07 20:48:22
阅读次数:
193
一、什么是ElasticSearch: Elasticsearch (ES)是一个基于Lucene构建的开源、分布式、RESTful 接口全文搜索引擎。Elasticsearch 还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索,它能够扩展至数以百计的服务器存储以及处理PB级的数据。 ...
分类:
其他好文 时间:
2018-12-31 13:00:49
阅读次数:
161
一、海量数据的存储问题 如今随着互联网的发展,数据的量级也是呈指数的增长,从GB到TB到PB。对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性,减少对事务的支持,减少对复杂查询的支持,来获取性能 ...
分类:
其他好文 时间:
2018-12-26 15:55:50
阅读次数:
140
一、什么是大数据 四个特性(4个V) 数据量大(Volume) 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB) 快速化(Velocity) 处理速度快,1秒级决策 多样化(Varity) 数据类型繁多,大部分为非结构化 ...
分类:
其他好文 时间:
2018-12-24 22:35:05
阅读次数:
411
一、概述 Protocol Buffers 是 Google 公司开发的一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。 Protocol Buffe ...
分类:
编程语言 时间:
2018-12-24 12:32:22
阅读次数:
1010
大数据概念 大数据(big data,mega data),或称巨量资料。比如TB、PB级别的数据。 5V volume 大量 velocity 高速 variet 多样 value 价值密度低 veracity 真实 大数据价值 数据量达到一定程度,数据本身也可以说话,数据被誉为新的生产力 当数据 ...
分类:
其他好文 时间:
2018-12-20 14:25:43
阅读次数:
161