码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
sqoop 1.4.3安装配置
sqoop1.4.3安装配置:1.解压tar包tar–zxvfsqoop-1.4.3.tar2.更改环境变量vi/etc/profile#添加下面两条记录 export$SQOOP_HOME=/opt/sqoop-1.4.3 PATH=$PATH:$SQOOP_HOME/bin3.复制sqoop-1.4.jarmysql-connector-java-5.1.10.jar到$HADOOP_HOME/lib/复制mysql-connector-java-..
分类:其他好文   时间:2014-05-15 08:50:40    阅读次数:342
Hadoop MapReduce链式实践--ChainReducer
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10 A,11 A,12 A,13 B,21 B,31 B,41 B,51data2:A,20 A,21 A,22 A,23 B,201 B,301 B,401 B,501最后输出为:A,23 B,501假如这样的逻辑的m...
分类:其他好文   时间:2014-05-15 08:15:04    阅读次数:374
数据挖掘之七种常用的方法
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。① 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以...
分类:其他好文   时间:2014-05-15 07:40:07    阅读次数:213
Ubuntu14(64位) 集群环境下安装Hadoop2.4
积累了小一个月,终于搞定了64位Ubuntu14.4中的Hadoop集群环境安装。虽然只能算是囫囵吞枣,但是基本完成了预期的目标,接下来要细细品味所有的细节了。...
分类:其他好文   时间:2014-05-15 02:58:17    阅读次数:297
hadoop学习;自定义Input/OutputFormat;类引用mapreduce.mapper;三种模式
hadoop分割与读取输入文件的方式被定义在InputFormat接口的一个实现中,TextInputFormat是默认的实现,当你想要一次获取一行内容作为输入数据时又没有确定的键,从TextInputFormat返回的键为每行的字节偏移量,但目前没看到用过 以前在mapper中曾使用LongWritable(键)和Text(值),在TextInputFormat中,因为键是字节偏移量,可以是L...
分类:移动开发   时间:2014-05-15 01:31:37    阅读次数:454
MapReduce编程实战之“高级特性”
本篇介绍MapReduce的一些高级特性,如计数器、数据集的排序和连接。计数器是一种收集作业统计信息的有效手段,排序是MapReduce的核心技术,MapReduce也能够执行大型数据集间的“”连接(join)操作。...
分类:其他好文   时间:2014-05-14 23:53:44    阅读次数:553
hive执行query语句时提示错误:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:
hive执行query语句时提示错误:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:...
分类:编程语言   时间:2014-05-14 21:49:08    阅读次数:378
hadoop-mapreduce中reducetask运行分析
ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理, 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理。 ReduceTask的运行也是通过run方法开始, 通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin, ...
分类:其他好文   时间:2014-05-14 20:23:57    阅读次数:519
大数据时代的万象变化
近来多次和百度、阿里、腾讯、中移动数据中心的架构师进行交流,同时也在网上的论坛/社区主导大数据分析范例的一些讨论,与互联网/云开发人员进行沟通。由此,我愉快地发现,大数据分析在中国非常普遍:不光是星巴克、纸牌屋等美国文化元素在中国广受追捧;Hadoop也受到广泛接纳,并且在中国的云开发人员的讨论中占据了主导地位。...
分类:其他好文   时间:2014-05-14 19:37:49    阅读次数:255
基于HBase的报表实现设想
很多复杂的报表项目,是借助报表工具(或插件)来实现的,下面以jasperReport举例。这些报表工具可以对传统的数据源(关系型数据库、collections、javaBeanArray)进行很好的支持。HBase的数据结构虽然与关系型数据库不一样,但HBase本身就是java开发的。有专门的javaAPI实现对HB..
分类:其他好文   时间:2014-05-14 18:23:58    阅读次数:281
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!