码迷,mamicode.com
首页 >  
搜索关键字:大数据    ( 12892个结果
使用 Apache Pig 处理数据5
使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在...
分类:其他好文   时间:2014-06-18 23:59:12    阅读次数:305
Impala与Hive的比较
1. Impala架构        Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS...
分类:其他好文   时间:2014-06-16 14:42:11    阅读次数:251
云端大数据实战记录-大数据推荐
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景    这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收...
分类:其他好文   时间:2014-06-16 14:21:39    阅读次数:351
hadoop数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下.....
分类:其他好文   时间:2014-06-16 13:22:07    阅读次数:309
Kettle Excel导入数据到数据库
最近学习大数据的处理,由于项目开发的需要,使用一种简单的方式来将Excel中的数据导入到数据库中,开发使用的kettle工具。 kettle工具安装很简单,从官网上下载下来之后,直接解压到制定的盘符下即可(前提是你配置了JAVA的环境变量,path,classpath)。 在WINDOWS环境下双击...
分类:数据库   时间:2014-06-15 22:10:06    阅读次数:412
机房收费系统——数据库设计说明书
优质数据库在处理大数据的程序或系统中是有非常重要的作用的,所以对于数据库的设计有很多的要求和规定。首先数据库要有很好的可维护性、灵活性,并且数据库的算法逻辑性也要有一定的优化性,这样可以对资源进行有效利用,并且处理数据的时间也会缩短。...
分类:数据库   时间:2014-06-15 12:27:34    阅读次数:238
大数据与JS实现2014巴西世界杯冠军预测图
大数据与JS实现2014巴西世界杯冠军预测图 http://www.zuidaima.com/share/1855841547176960.htm...
分类:Web程序   时间:2014-06-15 08:13:32    阅读次数:205
Node.js结合使用MongDb的Map.reduce功能进行大量数据简化处理办法
一年前,准备使用mongDb自带的map,reduce功能模拟hadoop,换个思路做一个简易的大数据分拆再结合存储的办法;这个功能可以用于数据日志或者游戏数据之类,进行周期性归纳和按照自己需求重组数据;以下代码实现了将每日数据collecttion:gameLog日期的数据统计出不同的collec...
分类:数据库   时间:2014-06-14 22:38:35    阅读次数:432
开口大数据闭口高并发,你们都是怎么回答
你需要了解大数据高并发的瓶颈在哪里,一般都是数据库层面的,机械硬盘承载不起非常快速的读写操作,cpu承载不起大量的逻辑运算,所以最基本的解决思路就是:1.换固态硬盘加快硬盘的读写效率。2.建立缓存中间件降低对硬盘的读写次数,缓存不用多说了,最最最基本和重要的优化策略。3.将硬盘的读写或者数据的计算分...
分类:其他好文   时间:2014-06-14 17:13:23    阅读次数:179
Spark:大数据的电花火石!
Apache Spark?is a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎。如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的。 本文将带领你进入Spark的世界,首先阐述了为什么Spark能够在众多的大数据分析平台中脱颖而出:通用,易用,高性能和与Hadoop的有效整合。Spark All in One的解决方案使用一个通用栈解决了流式,交互式,实时查询,迭代...
分类:其他好文   时间:2014-06-14 11:57:03    阅读次数:288
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!