码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
Hadoop Hive与Hbase关系 整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库 1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/7105319 2. HBase...
分类:其他好文   时间:2014-06-02 10:33:40    阅读次数:277
Win7中使用Eclipse连接虚拟机中的Ubuntu中的Hadoop2.4<3>
经过前几天的学习,基本上能够小试牛刀编写一些小程序玩一玩了,在此之前做几项准备工作明白我要用hadoop干什么大体学习一下mapreduceubuntu重新启动后,再启动hadoop会报连接异常的问题答:数据提炼、探索数据、挖掘数据map=切碎,reduce=合并重新启动后会清空tmp目录,默认na...
分类:Windows程序   时间:2014-06-02 10:13:11    阅读次数:394
Mahout学习之Mahout简单介绍、安装、配置、入门程序測试
一、Mahout简单介绍查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...附logo:(就是他,骑在象头上的那个Mahout)步入正文啦: Mahout是一个非常强大的数据挖掘工具,是一个分布式机器学习算法的集.....
分类:其他好文   时间:2014-06-02 08:14:03    阅读次数:273
什么是互联网思维?给你最全面的解释
http://zhangsa.net/baike/hulianwangsiwei.html互联网思维精髓大总结:1、用户思维;2、简约思维;3、极致思维;4、迭代思维;5、流量思维;6、社会化思维;7、大数据思维;8、平台思维;9、跨界思维。课前秀:三个段子第一个段子:一个毫无餐饮行业经验的人开了一...
分类:其他好文   时间:2014-06-02 07:55:24    阅读次数:278
hadoop备战:yarn框架的简介(mapreduce2)
hadoop yarn的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。...
分类:其他好文   时间:2014-06-02 02:27:16    阅读次数:332
hadoop备战:yarn框架的搭建(mapreduce2)
x86台式机,window7 64位系统 wmware虚拟机(x86的台式机至少是4G内存,才能开2台虚机) centos6.4操作系统 hadoop-2.2.0.tar.gz jdk-6u24-linux-i586.bin WinScp 远程文件传输工具,很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。...
分类:其他好文   时间:2014-06-02 02:23:23    阅读次数:315
使用java api操作Hadoop文件 Robbin
1 package cn.hadoop.fs; 2 3 import java.io.IOException; 4 import java.io.InputStream; 5 import java.net.URI; 6 import java.net.URISyntaxExcept...
分类:编程语言   时间:2014-06-02 01:40:57    阅读次数:398
普林斯顿公开课 算法1-8:并查集 快速查找
本节讲的是并查集的第一种实现方法,这种方法查找操作开销很小而合并操作开销比较大。 数据结构 假设有N个节点,那么该算法的数据结构就是一个包含N个整数的数组id[]。 判断操作 判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致。 合并操作 合并节点p和节点q就是将id数组中所有的id[...
分类:其他好文   时间:2014-06-01 14:55:21    阅读次数:202
普林斯顿公开课 算法1-9:并查集-快速合并
本节讲的是并查集的另外一种实现方法。这种方法的合并操作开销很小,但是查找操作开销很大。 数据结构 这种算法的数据结构和快速查找方法的数据结构是一样的,也是N个整数组成的数组。 数组中每个元素id[i]的含义是指i的上级是id[i]。 根节点 一个节点的根节点就是id[id[id[...id[i]....]]],一直循...
分类:其他好文   时间:2014-06-01 14:52:52    阅读次数:225
使用python操作elasticsearch实现数据插入分析
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:编程语言   时间:2014-06-01 13:47:42    阅读次数:328
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!