码迷,mamicode.com
首页 >  
搜索关键字:HDFS    ( 4980个结果
使用Apache Tomcat和hdfs-webdav.war实现hdfs和linux fs交互
需要准备2个文件Apache-tomcat-5.5.25.zip(推荐使用tomcat6)hdfs-webdav.war 解压tomcat# unzip apache-tomcat-5.5.25.zip 复制war到webapps# cd apache-tomcat-5.5.25# cp /soft...
分类:Web程序   时间:2014-07-12 00:28:44    阅读次数:520
HDFS中的读写数据流
1.文件的读取在客户端执行读取操作时,客户端和HDFS交互过程以及NameNode和各DataNode之间的数据流是怎样的?下面将围绕图1进行具体讲解。 图 1 客户端从HDFS中读取数据1)客户端通过调用FileSystem对象中的open()函数来读取它做需要的数据。FileS...
分类:其他好文   时间:2014-07-09 13:58:58    阅读次数:824
HDFS 读取、写入、遍历目录获取文件全路径
1、从HDFS中读取数据 Configuration conf = getConf(); Path path = new Path(pathstr); FileSystem fs = FileSystem.get(conf); FSDataInputStream fsin= fs.open(path ); BufferedReader br =null; Strin...
分类:其他好文   时间:2014-07-09 09:17:40    阅读次数:290
Nuch分析一
1、构建Nutch tar -zxvf apache-nutch-2.2.1-src.tar.gz  cd apache-nutch-2.2.1 ant runtime 2、    ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式: Deploy:的数据必须运行在Hadoop的HDFS中 loca...
分类:其他好文   时间:2014-07-08 18:20:36    阅读次数:268
hadoop和storm的区别
快,指时延storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度吞吐:单位时间内处理的数据量当数据量很大时,比的是吞吐,那hadoop会比storm快
分类:其他好文   时间:2014-07-08 09:11:30    阅读次数:195
利用LDA进行文本聚类(hadoop, mahout)
项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:其他好文   时间:2014-07-07 10:43:16    阅读次数:1186
HIVE部署安装(笔记)
1、下载hive:wget http://mirrors.cnnic.cn/apache/hive/hive-0.12.0/hive-0.12.0.tar.gz2、解压hive安装文件 tar -zvxf hive-0.12.0.tar.gz3、配置hive环境变量,初始化hive在hdfs上的工作...
分类:其他好文   时间:2014-07-06 15:35:09    阅读次数:146
Hadoop技术内幕HDFS-笔记11之HDFS
Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低...
分类:其他好文   时间:2014-07-03 18:51:20    阅读次数:266
【甘道夫】HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs
HBase开发环境搭建过程中可能遇到的异常:No FileSystem for scheme: hdfs...
分类:其他好文   时间:2014-07-03 17:10:28    阅读次数:295
Hadoop技术内幕HDFS-笔记7之hadoop文件系统
文件系统,对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS
分类:其他好文   时间:2014-07-02 20:47:41    阅读次数:285
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!