码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
hadoop学习;大数据集在HDFS中存为单个文件;安装linux下eclipse出错解决;查看.class文件插件
sudo apt-get install eclipse安装后打开eclipse,提示出错An error has occurred. See the log file/home/pengeorge/.eclipse/org.eclipse.platform_3.7.0_155965261/conf...
分类:系统相关   时间:2016-01-25 22:44:17    阅读次数:415
Spark概述
1. Spark定义 构建与计算集群之上支持大数据集的快速的通用的处理引擎a)快速: DAG、Memoryb)通用:集成Spark SQL、Streaming、Graphic、R、Batch Processc)运行方式:StandAloneYARNMesosAWSd)数据来源:Hdfs Hbase ...
分类:其他好文   时间:2016-01-10 10:24:43    阅读次数:124
数据结构实践——大数据集上排序算法性能的体验
本文是针对[数据结构基础系列(9):排序]的实践项目。【项目 - 大数据集上排序算法性能的体验】 设计一个函数,产生一个至少5万条记录的数据集合。在同一数据集上,用直接插入排序、冒泡排序、快速排序、直接选择排序、堆排序、归并排序、基数排序等算法进行排序,记录所需要的时间,经过对比,得到对复杂度不同的各种算法在运行时间方面的感性认识。 提示1:这一项目需要整合多种排序算法,可以考虑先建设排序算法...
分类:编程语言   时间:2015-12-01 12:55:39    阅读次数:207
Linux运维式具之pdsh
做系统运维的时候,我们经常需要同时在多台机器上执行相同的命令,这个时候可以使用类似pssh,pdsh的并行执行shell的工具。 当然,之前在没有使用这些工具之前,如果有ssh无密码互访,我们可以自己写for循环来执行,但是自己写的for循环是串行, pdsh是并发。 比如,当你接管一个新的大数据集...
分类:系统相关   时间:2015-11-22 16:02:29    阅读次数:183
MapReduce
MapReduce:超大机群上的简单数据处理摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用...
分类:其他好文   时间:2015-11-21 19:52:41    阅读次数:149
大数据架构之:Spark
Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算...
分类:其他好文   时间:2015-11-09 20:43:20    阅读次数:520
MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:其他好文   时间:2015-11-07 13:34:22    阅读次数:467
聚类分析-R语言
1、随机生成三个簇点: > c1 c2 c3 v=rbind(c1,c2,c3) 查看分布情况 > plot(v) 图 1 产生的随机数据 2、K聚类 像PAM这样的K-中心点算法(常见的K-means,K-medois等等)在小型数据集上运行良好,但是不能很好的用于大数据集运行。为了处理大数据集,...
分类:编程语言   时间:2015-08-03 13:02:42    阅读次数:1335
FineReport层式报表解决大数据集展示问题攻略
本文以填报报表为例,通过分页的方式,来解决大数据集展示的问题。实现的思想就是通过在SQL里筛选部分数据库数据,以达到浏览器可以合理的展示报表页面。(数据分段,语句我这采用的是MYSQL,如果要用其他数据库,请查看FineReport帮助文档)步骤一:打开fenye.cpt文件。模板界..
分类:其他好文   时间:2015-07-23 14:13:02    阅读次数:175
Spark入门(Python版)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计 算。2003和2004年,两个来自Google的观点使...
分类:编程语言   时间:2015-07-14 15:17:28    阅读次数:228
238条   上一页 1 ... 16 17 18 19 20 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!