项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:
其他好文 时间:
2014-07-07 10:43:16
阅读次数:
1186
Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低...
分类:
其他好文 时间:
2014-07-03 18:51:20
阅读次数:
266
1.1. java文件系统 1.1.1. URI和URL 1.1.2. java IO(自行研究)
分类:
编程语言 时间:
2014-07-02 20:51:44
阅读次数:
242
文件系统,对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS
分类:
其他好文 时间:
2014-07-02 20:47:41
阅读次数:
285
1.1.1. hadoop IO 对比Java IO即可 FSDataInputStream,FSDataOutputStream 为抽象类, FSInputStream抽象类 1.1.2. hadoop文件系统中的权限 枚举类FsAction定义了rwx权限,常量 ...
分类:
其他好文 时间:
2014-07-02 20:46:22
阅读次数:
308
我们以RHEL6.3为例说明。Linux的命令后面会有命令选项,有的选项还有选项值。选项的前面有短横线“-”,命令、选项、选项值之间使用空格隔开。有的命令没有选项,会有参数。选项是命令内置的功能,参数是用户提供的符合命令格式的内容。1.1.1. 命令提示符在桌面上点击鼠标右键,在弹出菜单中选择“Op...
分类:
系统相关 时间:
2014-07-02 14:41:56
阅读次数:
307
Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之...
分类:
其他好文 时间:
2014-07-02 13:48:43
阅读次数:
299
上一篇,咱们总结了下,ansible里的variables,这东西是从哪里来的。楼主举的例子可能都比较白痴,不过重在说明原理和过程,大伙有实际需求的时候,可以弄点高深的玩玩。说过了,variables来自哪里,那variables该咋用呢?说起用,用可以简单的用,也可以复杂的用,简单的用var..
分类:
其他好文 时间:
2014-07-02 11:39:34
阅读次数:
330
大家好,我是成都[LD],博客四年前就申请了,一直没打理,最近正好有时间,遂萌生了写技术博客的念头。我不得不感慨现在新技术更新很快,一不小心,就感觉自身就Out了。记得一年前,当时我也是在51CTO上了解到NoSQL和Hadoop这样的信息,当时就简单觉得很新奇,没想到一年之后发..
分类:
编程语言 时间:
2014-07-02 11:10:33
阅读次数:
1811