码迷,mamicode.com
首页 >  
搜索关键字:大数据 hadoop apark flume kafka    ( 29364个结果
Flume-NG源码阅读之HBaseSink
关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。 每个sink包括自己定制的,都extends AbstractSink implements Configurable。 一、首先是configure(Context context)方法。该...
分类:其他好文   时间:2014-05-05 10:55:40    阅读次数:462
hadoop学习笔记——基础知识及安装
1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode, 分别对应独立的物理机器 1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
分类:其他好文   时间:2014-05-05 10:35:14    阅读次数:432
为Linux集群创建新账户,并配置hadoop集群
转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户,这是一个绝对的失策,linux对用户访问权限很严格,新创的hod账户根本无法启动hadoop,而root在hod模式下使...
分类:系统相关   时间:2014-05-05 10:09:20    阅读次数:753
SQL Server 大数据搬迁之文件组备份还原实战
原文:SQL Server 大数据搬迁之文件组备份还原实战一.本文所涉及的内容(Contents)本文所涉及的内容(Contents)背景(Contexts)解决方案(Solution)搬迁步骤(Procedure)搬迁脚本(SQL Codes)注意事项(Attention)疑问(Questions...
分类:数据库   时间:2014-05-04 19:06:55    阅读次数:751
Mahout学习
Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 & Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget http://archive.ics.uci.edu/ml/databas...
分类:其他好文   时间:2014-05-04 12:34:58    阅读次数:340
Hadoop MRUnit使用(一)
之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:其他好文   时间:2014-05-04 10:54:29    阅读次数:427
ubuntu下hadoop环境配置
软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1 Hadoop下载地址:http://mirrors.cnnic.cn/apa...
分类:其他好文   时间:2014-05-04 10:43:51    阅读次数:370
大数据时代与个人隐私的矛盾
从父子骑驴的故事随想到大数据时代与个人隐私的矛盾。对于大数据时代和隐私的矛盾,厂商对于大数据无疑是收集用户信息(例如使用习惯、搜索过的信息等等),然后推广给用户更实际的东西和更精准的广告。百度搜索、腾讯QQ、搜狗输入法、奇虎360这些常用工具一直都在收集用户所谓的隐私信息人言可畏,该说哪个厂家在.....
分类:其他好文   时间:2014-05-04 10:34:18    阅读次数:375
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
codechef - Discrepancies in the Voters List 题解
codechef的本题算法也不难,但是codechef喜欢大数据,动不动就过万过十万,输入输出处理不好就会超时。 就像本题最大数据可能达到15万个整数。普通输入输出铁定超时了。 这里使用fread和fwrite这两个函数,设置好buffer,速度还是相当快的,而且相对很多程序都比较简单的了。 主要注意: 每个buffer数据块和下一个buffer数据块之间的衔接,不能破坏了最终需要...
分类:其他好文   时间:2014-05-04 08:54:04    阅读次数:268
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!