1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库,分布式的,面向列的,<首选在hdfs基础上> Google发布三篇论文:GFS,MapReduce,BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析;Hbase解决实时处理业 ...
分类:
其他好文 时间:
2018-08-04 11:32:08
阅读次数:
159
Hadoop:离线计算Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS ...
分类:
其他好文 时间:
2018-07-26 19:51:08
阅读次数:
171
Elasticsearch是个基于Lucene实现的开源、分布式、restful的全文本搜索引擎,此外他还是一个分布式实时文档存储,其中每个文档的每个filed均是可被索引的数据,且可被搜索,也是一个带实时分析功能的搜索引擎,能够扩展至数以百计的节点实时处理PB级别的数据。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载
分类:
其他好文 时间:
2018-07-14 17:17:20
阅读次数:
424
为什么需要 Stream Stream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。它也不同于 StAX 对 XML 解析的 Stream,也不是 Amazon Kinesis 对大数据实时处理的 Stream ...
分类:
其他好文 时间:
2018-07-05 14:59:25
阅读次数:
197
概念:各种模型融合,结果取平均值或投票等项目经验:输出每个模型预测结果的情况,剔除预测效果差的模型(例如预测正样本比率是否符合原数据集正样本比率)Stacking(堆叠)模型:第一阶段最好交叉验证优点:使模型的边界更加平稳,效果更好,过拟合风险更低缺点:消耗时间大,不适合实时处理,只适合离线操作 转 ...
分类:
编程语言 时间:
2018-07-02 14:16:23
阅读次数:
170
随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理、用户行为分析、场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于hadoop生态,利用Kafka作为中转,SparkStrea ...
分类:
其他好文 时间:
2018-06-08 23:16:51
阅读次数:
256
队列在数据结构中是一种线性表,从一端插入数据,然后从另一端删除数据。本文目的不是讲解各种队列算法,而是在应用层面讲述使用队列能解决哪些场景问题。 在我开发过的系统中,不是所有的业务都必须实时处理、不是所有的请求都必须实时反馈结果给用户、不是所有的请求/处理都必须100%处理成功、不知道谁依赖“我”的 ...
分类:
其他好文 时间:
2018-06-07 14:26:28
阅读次数:
193
Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本。就在前一个月,我们才从0.9升级到0.10,终于可以尝试structured streaming的很 ...
分类:
其他好文 时间:
2018-06-05 20:05:26
阅读次数:
367
为什么需要 Stream Stream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。它也不同于 StAX 对 XML 解析的 Stream,也不是 Amazon Kinesis 对大数据实时处理的 Stream ...
分类:
编程语言 时间:
2018-05-28 12:39:06
阅读次数:
222
ElasticSearchES是一个基于Lucene实现的开源、分布式、Restful的全文本搜索引擎;此外,它还是一个分布式实时文档存储,其中每个文档的每个field均是被索引的数据,且可被搜索;也是一个带实时分析功能的分布式搜索引擎,能够扩展至数以百计的节点实时处理PB级的数据。基本组件:索引(index):文档容器,换句话说,索引是具有类似属性的文档的集合。类似于表。索引名必须使用小写字母;
分类:
其他好文 时间:
2018-05-15 17:31:01
阅读次数:
137