算法过程如下:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类3)重新计算已经得到的个各类的质心4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束优点:1.算法快速,简单 2.对大数据集有较高的效率并且是可伸缩性的 ...
分类:
编程语言 时间:
2015-04-01 11:05:33
阅读次数:
149
Hadoop的主核心有2部分:1,HDFS2, MapReduce首先:HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large...
分类:
其他好文 时间:
2015-03-14 09:30:46
阅读次数:
167
HDFS:HDFS是一个分布式文件系统。因为HDFS具有高容错性(fault-tolerent)的特点,所以可以部署到低廉的硬件上。它可以通过提高吞吐率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了对可移植操作系统接口(POSIX,portable Operating System Interface)的要求。这样可以实现以流的形式访问文件系...
分类:
其他好文 时间:
2015-03-09 19:07:04
阅读次数:
129
每周技术抢先看,总有你想要的! 移动开发 【博客】Swift社交应用文本输入优化汇总? 服务端开发/管理 【翻译】HTTP/1 的最佳实践并不适合 HTTP/2 【翻译】使用 AppDomain 存储实现大数据集合 【翻译】AngularJS...
HIVE学习总结
Hive只需要装载一台机器上,可以通过webui,console,thrift接口访问(jdbc,odbc),仅适合离线数据分析,降低数据分析成本(不用编写mapreduce)。
Hive优势
1. 简单易上手,类sql的hql、
2. 有大数据集的计算和扩展能力,mr作为计算引擎,hdfs作为存储系统
3. 统一的...
分类:
数据库 时间:
2015-02-24 17:32:33
阅读次数:
506
前言“只要站在风口,猪也能飞起来”,这碗心灵鸡汤不知道激励了多少英雄豪杰踏上寻风口之路。而现如今,Docker这阵龙卷风呼啸来袭,更让众人生起迎风而上、直冲云霄的欲望。为了找到这风口,数据平台部开始全面拥抱Docker,基于多年的大数据集群管理经验,倾力打造DockerOnGaia云平台(简称Gaia云),并动员将数平自身的核心系统Lhotse、Hermes、Hive、TRE、TDBank等全面接入...
分类:
其他好文 时间:
2015-02-12 18:36:38
阅读次数:
296
主要讨论在Centos5.6下通过Ambari进行Hadoop集群的安装(基于Hotonworks框架)...
分类:
其他好文 时间:
2015-02-12 18:30:33
阅读次数:
214
AWS对于大规模计算方案是很受欢迎的,如科学计算,模拟和研究项目。这些方案包括从科研设备,测量设备,或其他计算作业的大量数据集的采集。采集后,使用大规模计算作业的分析来生成最终数据集。通常,这些结果将提供给更多的受众。1. 为了将大数据集上传到AWS,关键是拥有最多的可用带宽。 通过多客户端的并行处理,就可以把数据上传到S3, 每个客户端采用多线程技术实现并行上传或上传多部分以便进一步并行处理。...
分类:
其他好文 时间:
2015-02-04 20:24:23
阅读次数:
143
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:
其他好文 时间:
2015-01-15 18:00:34
阅读次数:
377
HDFS作为Hadoop的核心技术之一,HDFS(Hadoop Distributed File System, Hadoop分布式文件系统)是分布式计算中数据存储管理的基础。具有高容错高可靠性、高可扩展性、高可获得性、高吞吐率等特性。为超大数据集的应用提供了便利。一、设计的前提和目的HDFS是Go...
分类:
其他好文 时间:
2015-01-12 22:29:31
阅读次数:
264