码迷,mamicode.com
首页 >  
搜索关键字:mahout hadoop canopy 聚类 大数据    ( 26726个结果
hive基本操作
Hive是一个基于hadoop的数据仓库工具。Hive的查询语言是hive ql。一种类似sql的语言。 Hive支持的数据类型有 1整形: Tinyint  1字节整型 Smallint  2字节整型 Bigint   8字节整型   2.布尔型 Boolean   3浮点型  Float Double   4字符串类型 String   5.符合类型 ...
分类:其他好文   时间:2014-07-22 23:03:34    阅读次数:393
Hadoop AWS Word Count 例子
在AWS里用Elastic Map Reduce 开一个Cluster然后登陆master node并编译以下程序:import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; ...
分类:其他好文   时间:2014-07-22 23:01:32    阅读次数:405
Hadoop web监控界面设置安全机制
Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。实验环境:OS:Centos 6.5 x64, Soft:Hadoop 1.2.11、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hado...
分类:Web程序   时间:2014-05-02 12:17:15    阅读次数:1290
hadoop wordCount运行
本文以康哥的博客为基础进行修改和补充,详见:http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/hadoop mapreduce 过程粗略的分为两个阶段: 1.map; 2.redurce(copy, sor...
分类:其他好文   时间:2014-05-02 00:06:57    阅读次数:553
R简单数据分析
眼下大数据口号满天飞,今天拿我微信圈朋友一段时间内分享内容作为数据,用R包的算法实现简单分析。由于微信没有接口获取数据,暂时只能手动记录数据,主要是做个小尝试,数据获取方式是其次。1)我们看看微信圈活跃的朋友。PS:知道为何我们的流量烧的这么快了吧?这些小伙伴八成是运营商潜伏过来的余则成,在背后分成...
分类:其他好文   时间:2014-05-01 19:11:52    阅读次数:372
用hadoop实现SimRank++算法(1)----权值转移矩阵的计算
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。 SimRank++的矩阵形式的计算公式为: 算法主要步骤如下: Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号; Step2:...
分类:其他好文   时间:2014-05-01 08:21:53    阅读次数:527
亚马逊AWS在线系列讲座——第1讲:云计算和AWS入门
亚马逊AWS在线讲座将围绕AWS云平台的各种服务分不同的主题对AWS服务进行系统介绍。AWS在线讲座系列会由浅入深帮助刚开始接触AWS的用户了解各种AWS云服务,达到快速上手进行实际应用的目的。 第一讲:AWS入门介绍 在此次在线讲座旨在帮助您: 1. 了解AWS云计算概览及价值主张 2. 了解AWS 服务的特点:灵活、高效、弹性以及安全性 3. 了解AWS云平台的基础知识,包括AWS的计算、存储、网络、数据库和大数据等服务概况...
分类:其他好文   时间:2014-04-30 22:34:38    阅读次数:313
ORACLE存储过程如何迁移到HIVE?
在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。 ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述了几个迁移时需要注意的地方。...
分类:数据库   时间:2014-04-30 22:31:40    阅读次数:526
【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景知识       在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法。   (1)回归                先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非...
分类:编程语言   时间:2014-04-30 22:15:39    阅读次数:454
flare-spork: 自己维护的Pig on Spark项目
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。 目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。 Github...
分类:其他好文   时间:2014-04-30 22:15:39    阅读次数:360
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!