一:背景 某些业务的数据来源可能不同,且数据源中的分割方式也不同,导致在MapReduce编程时使用的格式化类会不同,为了包装不同的Map输出,Hadoop提供了GenericWritable类,允许我们同时操作多个不同的Map输出,输出到一个Reduce中进行处理。 技术实现: 我们对HDFS中两
分类:
其他好文 时间:
2016-01-31 21:22:10
阅读次数:
375
MySQLdb安装失败了,直接使用pymysql,安装了pymysql。 并学习了使用使用pymysql创建数据库和表,并插入数据。 __author__ = 'Administrator' import pymysql try: conn= pymysql.connect(host='localh...
分类:
数据库 时间:
2016-01-31 21:19:56
阅读次数:
8655
#测试数据: # more user.txt(用户ID,用户名) [java] view plain copy 1 lavimer 2 liaozhongmin 3 liaozemin #more post.txt(用户ID,帖子ID,标题) [java] view plain copy 1 1 j
分类:
其他好文 时间:
2016-01-31 21:20:28
阅读次数:
231
UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。 编写自己的UDTF: 1.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。 2.
分类:
其他好文 时间:
2016-01-31 21:20:33
阅读次数:
659
sudo ln -s /usr/local/bin/VBoxManage /usr/bin/VBoxManage
分类:
系统相关 时间:
2016-01-31 21:21:41
阅读次数:
258
Hadoop越来越火,围绕Hadoop的子项目更是增长迅速,光Apache官网上列出来的就十几个,但是万变不离其宗,大部分项目都是基于Hadoop Common。 MapReduce更是核心中的核心。那么到底什么是MapReduce,它具体是怎么工作的呢? 关于它的原理,说简单也简单,随便画个图喷一
分类:
其他好文 时间:
2016-01-31 21:20:30
阅读次数:
441
Three methods to preform redirection in browser: widnow.location.href window.location.assign window.location.replace 1 & 2, they are pretty much the s
分类:
编程语言 时间:
2016-01-31 21:18:55
阅读次数:
168
首先来看一下HDFS的结构,如下图: 如上图,在HDFS架构中,NameNode是职责是管理元数据信息,DataNode的职责是负责数据存储,那么SecondaryNameNode的作用是什么呢? 其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案,下面我们来看
分类:
其他好文 时间:
2016-01-31 21:20:15
阅读次数:
222
下面是几种经常使用的核函数表示:线性核(Linear Kernel)多项式核(Polynomial Kernel)径向基核函数(Radial Basis Function)也叫高斯核(Gaussian Kernel),由于能够看成例如以下核函数的领一个种形式:径向基函数是指取值只依赖于特定点距离的实
分类:
其他好文 时间:
2016-01-31 21:18:13
阅读次数:
581
一根细棒升温时会变长,在两面墙中间,会变成一个弓形。 给出变长后的长度,求新的细棒中心与没伸长时的中心的距离。 简单的数学推导后就可以二分答案了,一开始没完全掌握二分的姿势,wa了好多。而且poj double输出要用%f,用%lf就wa了。 #include <cstdio> #include <
分类:
其他好文 时间:
2016-01-31 21:19:21
阅读次数:
218
工作进程(Worker Process) Worker是Spout/Bolt中运行具体处理逻辑的进程。拓扑跨一个或多个Worker进程执行。每个Worker进程是一个物理的JVM和拓扑执行所有任务的一个子集。例如,如果合并并行度的拓扑是300,已经分配50个Worker,然后每个Worker将执行6
分类:
其他好文 时间:
2016-01-31 21:19:57
阅读次数:
263
一:背景 Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job多个task运行速度不不一致,有的task运行速度明显要慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则
分类:
其他好文 时间:
2016-01-31 21:19:07
阅读次数:
243
输入: 数组A[i,…,j] 输出:数组A[i,…,j]中的max和min 1. If j-i+1 =1 Then 输出A[i],A[i],算法结束 2. If j-i+1 =2 Then 3. If A[i]< A[j] Then输出A[i],A[j];算法结束 4. k<--(j-i+1)/2
分类:
编程语言 时间:
2016-01-31 21:19:35
阅读次数:
231
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框
分类:
编程语言 时间:
2016-01-31 21:17:38
阅读次数:
243
下面是java6中文API对Exchanger的解释: 能够在对中对元素进行配对和交换的线程的同步点。每一个线程将条目上的某个方法呈现给 exchange 方法。与伙伴线程进行匹配,而且在返回时接收其伙伴的对象。Exchanger 可能被视为 SynchronousQueue 的双向形式。Excha
分类:
编程语言 时间:
2016-01-31 21:19:02
阅读次数:
191
通常情况下。假设想发现全部已经使用的和正在监听的port,我们能够使用netstat命令。 netstat并不是一个port扫描工具。假设你想扫描计算机开放了哪些port的话。建议使用本文介绍的方法。 Netstat命令基础 Netstat命令主要用于显示协议统计信息和当前 TCP/IP 网络连接。
对于数字、字符串深浅拷贝: import copy num = 0 copy_num = copy.copy(num) print("These are normal copy").center(60,'*') print(num,id(num)) print(copy_num,id(copy_nu
分类:
编程语言 时间:
2016-01-31 21:17:06
阅读次数:
203