码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
CentOS6.5下Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐)
第一步: Cloudera Manager安装之Cloudera Manager安装前准备(CentOS6.5)(一) 第二步: Cloudera Manager安装之时间服务器和时间客户端(二) 第三步: Cloudera Manager安装之Cloudera Manager 5.3.X安装(三) ...
分类:其他好文   时间:2018-05-31 13:17:56    阅读次数:144
大数据集群安装步骤
环境服务器配置:CPU型号:CPU核素:内存:操作系统版本:CentOSLinuxrelease7.5.1804(Core)主机列表:192.168.0.101node1192.168.0.102node2192.168.0.103node3192.168.0.104node4192.168.0.105node4软件路径:/data/toolsjdk版本:1.8JAVA_HOME路径:/opt/j
分类:其他好文   时间:2018-05-30 15:04:19    阅读次数:155
hadoo之HDFS
分布式文件系统HDFS 需要实现以下的一些目标: 1. 廉价的硬件设备 2. 流数据读写(和传统系统区别的地方,全部的数据一股脑的读取) 3. 大数据集(一个文件可能有时候大到好几个T) 4. 简单的文件模型(获取了批量处理的特性,只能追加,不可以修改) 5. 强大的跨平台特性(java开发的) H ...
分类:其他好文   时间:2018-05-24 23:05:18    阅读次数:244
关联规则之FpGrowth算法
Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构 ...
分类:编程语言   时间:2018-05-23 17:09:50    阅读次数:237
NASNet学习笔记——?? 核心一:延续NAS论文的核心机制使得能够自动产生网络结构; ?? 核心二:采用resnet和Inception重复使用block结构思想; ?? 核心三:利用迁移学习将生成的网络迁移到大数据集上提出一个new search space。
from:https://blog.csdn.net/xjz18298268521/article/details/79079008 NASNet总结 论文:《Learning Transferable Architectures for Scalable Image Recognition》 注 ...
分类:Web程序   时间:2018-05-13 13:54:09    阅读次数:1441
hadoop之HDFS
一、HDFS体系结构 1 HDFS假设条件 数据流访问 大数据集 简单相关模型 移动计算比移动数据便宜 多种软硬件平台中的可移植性 2 HDFS的设计目标 非常巨大的分布式文件系统 运行于普通硬件上 优化批处理 用户控件可以位于异构的操作系统中 在整个集群中使用单一的命名空间 数据一致性 文件被分为 ...
分类:其他好文   时间:2018-04-25 17:09:54    阅读次数:180
Spark应用领域广泛,能做什么呢?
Spark能做什么?Spark应用领域Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,Python,R和Scala等语言,其灵活的特性,适合各种环境,以下是Spark最常见的两种应用场景:离线场景:可以以时间为维度,几年的数据集,或者以业务为维度,某个领域的大数据集等,这种数据我们一般
分类:其他好文   时间:2018-04-11 00:06:23    阅读次数:215
Spark能做什么?Spark应用领域
Spark能做什么?Spark应用领域Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,Python,R和Scala等语言,其灵活的特性,适合各种环境,以下是Spark最常见的两种应用场景:离线场景:可以以时间为维度,几年的数据集,或者以业务为维度,某个领域的大数据集等,这种数据我们一般
分类:其他好文   时间:2018-04-10 23:58:28    阅读次数:358
es实战之查询大量数据
背景 项目中已提供海量日志数据的多维实时查询,客户提出新需求:将数据导出。 将数据导出分两步: 1. 查询大量数据 2. 将数据生成文件并下载 本文主要探讨第一步,在es中查询大量数据或者说查询大数据集。 es支持的查询数量 es默认支持的查询数量或者说查询深度是10,000。 可以动态修改max_ ...
分类:其他好文   时间:2018-04-05 15:51:15    阅读次数:6373
Druid介绍
Druid (大数据实时统计分析数据存储) Druid 是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十亿行级别的表进行任意的探索分析。 1. 介绍 在最近几年,互联 ...
分类:其他好文   时间:2018-03-30 19:55:33    阅读次数:147
238条   上一页 1 ... 9 10 11 12 13 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!