码迷,mamicode.com
首页 >  
搜索关键字:大数据集    ( 238个结果
MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:其他好文   时间:2015-06-26 20:59:01    阅读次数:125
caffe安装2
洋洋洒洒一大篇,就没截图了,这几天一直在折腾这个东西,实在没办法,不想用Linux但是,为了Caffe,只能如此了,安装这些东西,遇到很多问题,每个问题都要折磨很久,大概第一次就是这样的。想想,之后应用,应该还会遇到很多问题吧,不过没办法了,骑虎难下!!这里有个建议是,如果将来要做大数据集,最好事....
分类:其他好文   时间:2015-06-21 23:37:58    阅读次数:154
MapReduce编程之数据去重
数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 package com.hadoop.mr; import java.io.IOException; import org.apache.hadoop.conf.Config...
分类:其他好文   时间:2015-06-18 17:25:05    阅读次数:83
LinkedIn Cubert安装指南
最近工作需要,调研了一下LinkedIn开源的用于复杂大数据分析的高性能计算引擎Cubert。自己测了下,感觉比较适合做报表统计中的Cube计算和Join计算,效率往往比Hive高很多倍,节省资源和时间。下面看下这个框架的介绍: Cubert完全用Java开发,并提供一种脚本语言。它是针对报表领域里经常出现的复杂连接和聚合而设计的。Cubert使用MeshJoin算法处理大时间窗口下的大数据集,...
分类:其他好文   时间:2015-06-18 13:41:54    阅读次数:253
Linux配置时间服务器
[Author]: kwu --- Linux配置时间服务器,大数据集群时间同步是非常关键的,误差超过500ms就会有问题,通常配置内网的时间服务器。...
分类:系统相关   时间:2015-06-16 14:45:47    阅读次数:125
Apache Hadoop 和Hadoop生态圈
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapRedu...
分类:Web程序   时间:2015-06-10 19:32:12    阅读次数:130
MapReduce:超大机群上的简单数据处理
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个 map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间 value.下面将列举许多可以用这个模型来...
分类:其他好文   时间:2015-06-06 11:57:07    阅读次数:119
一位蜗牛程序员七年工作总结-2014
2014年的工作总结,拖到2015年中旬。主要是过完年后事情太多了,感觉都在赛跑。每周六都的开车去小孩姥姥家看孩子,炒股,交房,接私活,构建大数据集群。从3月底到现在只休息了两天。忙的一塌糊涂,还好对生活工作的激情犹在。 --------------工作总结分割线---------------- 去年的工作,总结来说就是做了一件事情,主导了基于历史浮动车数据的分析工作。开始牛刀小试...
分类:其他好文   时间:2015-06-03 15:48:06    阅读次数:176
记一次云计算测试实验-openstack-icehouse-安装sahara
在两个节点都要配置这就是所说的大数据集群。---------------controller----------------------------yum-yinstallopenstack-saharaservicemysqldstop(先将/etc/my.cnf中的innodb_file_per_table删除,再执行下一条命令,否则会报错。)openstack-config--set/etc/my.cnfmysql..
分类:其他好文   时间:2015-06-03 14:00:16    阅读次数:206
Drill中实现HTTP storage plugin
Apache Drill可用于大数据的实时分析,引用一段介绍: 受到Google Dremel启发,Apache的Drill项目是对大数据集进行交互式分析的分布式系统。Drill并不会试图取代已有的大数据批处理框架(Big Data batch processing framework),如Hadoop MapReduce或流处理框架(stream processing framework)...
分类:Web程序   时间:2015-05-30 21:14:04    阅读次数:247
238条   上一页 1 ... 17 18 19 20 21 ... 24 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!