搜索关键字：大数据 hadoop apark flume kafka，搜索到29364个结果！码迷,mamicode.com！

Flume-NG源码阅读之HBaseSink

关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。每个sink包括自己定制的，都extends AbstractSink implements Configurable。一、首先是configure(Context context)方法。该...

分类：其他好文时间：2014-05-05 10:55:40 阅读次数：462

hadoop学习笔记——基础知识及安装

1.核心 HDFS 分布式文件系统主从结构，一个namenoe和多个datanode，分别对应独立的物理机器 1)NameNode是主服务器，管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作，比如打开关闭重命名文件或者目录等，它也负责...

分类：其他好文时间：2014-05-05 10:35:14 阅读次数：432

为Linux集群创建新账户，并配置hadoop集群

转自:http://blog.csdn.net/bluesky8640/article/details/6945776之前装python、jdk、hadoop都是用的root账户，这是一个绝对的失策，linux对用户访问权限很严格，新创的hod账户根本无法启动hadoop，而root在hod模式下使...

分类：系统相关时间：2014-05-05 10:09:20 阅读次数：753

SQL Server 大数据搬迁之文件组备份还原实战

原文:SQL Server 大数据搬迁之文件组备份还原实战一.本文所涉及的内容（Contents）本文所涉及的内容（Contents）背景（Contexts）解决方案（Solution）搬迁步骤（Procedure）搬迁脚本（SQL Codes）注意事项（Attention）疑问（Questions...

分类：数据库时间：2014-05-04 19:06:55 阅读次数：751

Mahout学习

Mahout小案例学习，实现k-means算法。环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget http://archive.ics.uci.edu/ml/databas...

分类：其他好文时间：2014-05-04 12:34:58 阅读次数：340

Hadoop MRUnit使用（一）

之前在写MR job的时候，由于要在云梯，或者一淘的开发集群上运行；所以处理方法是，在本地打成jar包，然后scp到客户端网关机上，然后在提交job运行。这样的问题时，有时候如果遇到一些逻辑上的问题，job跑挂了。必须在本地修改程序，然后重新打包，scp，再运行，这样比较麻烦；询问了一圈，觉得采用M...

分类：其他好文时间：2014-05-04 10:54:29 阅读次数：427

ubuntu下hadoop环境配置

软件环境：虚拟机：VMware Workstation 10 操作系统：ubuntu-12.04-desktop-amd64 JAVA版本：jdk-7u55-linux-x64 Hadoop版本：hadoop-1.2.1 Hadoop下载地址：http://mirrors.cnnic.cn/apa...

分类：其他好文时间：2014-05-04 10:43:51 阅读次数：370

大数据时代与个人隐私的矛盾

从父子骑驴的故事随想到大数据时代与个人隐私的矛盾。对于大数据时代和隐私的矛盾，厂商对于大数据无疑是收集用户信息（例如使用习惯、搜索过的信息等等），然后推广给用户更实际的东西和更精准的广告。百度搜索、腾讯QQ、搜狗输入法、奇虎360这些常用工具一直都在收集用户所谓的隐私信息人言可畏，该说哪个厂家在.....

分类：其他好文时间：2014-05-04 10:34:18 阅读次数：375

使用hadoop multipleOutputs对输出结果进行不一样的组织

MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。...

分类：其他好文时间：2014-05-04 10:22:15 阅读次数：341

codechef - Discrepancies in the Voters List 题解

codechef的本题算法也不难，但是codechef喜欢大数据，动不动就过万过十万，输入输出处理不好就会超时。就像本题最大数据可能达到15万个整数。普通输入输出铁定超时了。这里使用fread和fwrite这两个函数，设置好buffer，速度还是相当快的，而且相对很多程序都比较简单的了。主要注意：每个buffer数据块和下一个buffer数据块之间的衔接，不能破坏了最终需要...

分类：其他好文时间：2014-05-04 08:54:04 阅读次数：268

共29364条上一页 1 ... 2927 2928 2929 2930 2931 ... 2937 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)