码迷,mamicode.com
首页 >  
搜索关键字:实时处理    ( 249个结果
HBase的简介和搭建
1. HBase是HDFS上面向列的分布式数据库 HBase首先是数据库,分布式的,面向列的,<首选在hdfs基础上> Google发布三篇论文:GFS,MapReduce,BigTable开启分布式存储和计算的纪元 hdfs+mapreduce(Hadoop)解决离线分析;Hbase解决实时处理业 ...
分类:其他好文   时间:2018-08-04 11:32:08    阅读次数:159
大数据处理工具
Hadoop:离线计算Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS ...
分类:其他好文   时间:2018-07-26 19:51:08    阅读次数:171
CentOS7.3下ELK日志分析系统集群搭建
  Elasticsearch是个基于Lucene实现的开源、分布式、restful的全文本搜索引擎,此外他还是一个分布式实时文档存储,其中每个文档的每个filed均是可被索引的数据,且可被搜索,也是一个带实时分析功能的搜索引擎,能够扩展至数以百计的节点实时处理PB级别的数据。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载
分类:其他好文   时间:2018-07-14 17:17:20    阅读次数:424
JDK1.8之Stream
为什么需要 Stream Stream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。它也不同于 StAX 对 XML 解析的 Stream,也不是 Amazon Kinesis 对大数据实时处理的 Stream ...
分类:其他好文   时间:2018-07-05 14:59:25    阅读次数:197
集成算法
概念:各种模型融合,结果取平均值或投票等项目经验:输出每个模型预测结果的情况,剔除预测效果差的模型(例如预测正样本比率是否符合原数据集正样本比率)Stacking(堆叠)模型:第一阶段最好交叉验证优点:使模型的边界更加平稳,效果更好,过拟合风险更低缺点:消耗时间大,不适合实时处理,只适合离线操作 转 ...
分类:编程语言   时间:2018-07-02 14:16:23    阅读次数:170
基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建
随着公司业务发展,对大数据的获取和实时处理的要求就会越来越高,日志处理、用户行为分析、场景业务分析等等,传统的写日志方式根本满足不了业务的实时处理需求,所以本人准备开始着手改造原系统中的数据处理方式,重新搭建一个实时流处理平台,主要是基于hadoop生态,利用Kafka作为中转,SparkStrea ...
分类:其他好文   时间:2018-06-08 23:16:51    阅读次数:256
消息队列的应用场景
队列在数据结构中是一种线性表,从一端插入数据,然后从另一端删除数据。本文目的不是讲解各种队列算法,而是在应用层面讲述使用队列能解决哪些场景问题。 在我开发过的系统中,不是所有的业务都必须实时处理、不是所有的请求都必须实时反馈结果给用户、不是所有的请求/处理都必须100%处理成功、不知道谁依赖“我”的 ...
分类:其他好文   时间:2018-06-07 14:26:28    阅读次数:193
Structured Streaming教程(3) —— 与Kafka的集成
Structured Streaming最主要的生产环境应用场景就是配合kafka做实时处理,不过在Strucured Streaming中kafka的版本要求相对搞一些,只支持0.10及以上的版本。就在前一个月,我们才从0.9升级到0.10,终于可以尝试structured streaming的很 ...
分类:其他好文   时间:2018-06-05 20:05:26    阅读次数:367
jdk1.8 java.util.stream.Stream类 详解
为什么需要 Stream Stream 作为 Java 8 的一大亮点,它与 java.io 包里的 InputStream 和 OutputStream 是完全不同的概念。它也不同于 StAX 对 XML 解析的 Stream,也不是 Amazon Kinesis 对大数据实时处理的 Stream ...
分类:编程语言   时间:2018-05-28 12:39:06    阅读次数:222
elasticsearch基础操作01
ElasticSearchES是一个基于Lucene实现的开源、分布式、Restful的全文本搜索引擎;此外,它还是一个分布式实时文档存储,其中每个文档的每个field均是被索引的数据,且可被搜索;也是一个带实时分析功能的分布式搜索引擎,能够扩展至数以百计的节点实时处理PB级的数据。基本组件:索引(index):文档容器,换句话说,索引是具有类似属性的文档的集合。类似于表。索引名必须使用小写字母;
分类:其他好文   时间:2018-05-15 17:31:01    阅读次数:137
249条   上一页 1 ... 9 10 11 12 13 ... 25 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!