项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:
其他好文 时间:
2014-07-07 10:43:16
阅读次数:
1186
OpenTSDB-2.0.0安装布署2014-02-27 11:07:49|分类:大数据|标签:hadoop|举报|字号订阅1、介绍OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报...
分类:
数据库 时间:
2014-07-07 08:00:49
阅读次数:
780
通过HBase client访问HBase时,配置如下:Configuration conf = HBaseConfiguration.create();// Zookeeper地址 conf.set(HConstants.ZOOKEEPER_QUORUM, "master.hadoop");//....
分类:
其他好文 时间:
2014-07-07 00:38:13
阅读次数:
250
Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低...
分类:
其他好文 时间:
2014-07-03 18:51:20
阅读次数:
266
# Kfaka的体系结构
# 学习前言
Kafka的整个学习过程就是自己看官网的文档,出错了找各种错,各种百度Google什么的,还好最后都解决了,不然就坑爹了,伤不起啊!英语真心也是硬伤,还是好好学英语,多记记单词吧!看官方文档还是有点压力的,不过压力就是动力,人生就该如此,这几天有点小忙,今天终于把这个整理完了,以此来帮助那些想学这些新技术的朋友们,虽然整理的时候有点累,但是还是值得的。对云计算有兴趣的朋友可以加上面说的214293307的群哦,一起学习,共同进步 ...
# Kafka介绍
# 介...
分类:
编程语言 时间:
2014-07-03 18:41:34
阅读次数:
392
本文简单介绍了ZooKeeper的基本知识。(1)概述①什么是ZooKeeper?Zookeeper是Google的Chubby一个开源的实现,是Hadoop的分布式协调服务它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等②Zookeeper的角色③为什么使用Zookeeper?大部分分..
分类:
其他好文 时间:
2014-07-03 14:02:30
阅读次数:
269
我们以RHEL6.3为例说明。Linux的命令后面会有命令选项,有的选项还有选项值。选项的前面有短横线“-”,命令、选项、选项值之间使用空格隔开。有的命令没有选项,会有参数。选项是命令内置的功能,参数是用户提供的符合命令格式的内容。1.1.1. 命令提示符在桌面上点击鼠标右键,在弹出菜单中选择“Op...
分类:
系统相关 时间:
2014-07-02 14:41:56
阅读次数:
307
Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之...
分类:
其他好文 时间:
2014-07-02 13:48:43
阅读次数:
299
大家好,我是成都[LD],博客四年前就申请了,一直没打理,最近正好有时间,遂萌生了写技术博客的念头。我不得不感慨现在新技术更新很快,一不小心,就感觉自身就Out了。记得一年前,当时我也是在51CTO上了解到NoSQL和Hadoop这样的信息,当时就简单觉得很新奇,没想到一年之后发..
分类:
编程语言 时间:
2014-07-02 11:10:33
阅读次数:
1811