码迷,mamicode.com
首页 > 2016年01月31日 > 全部分享
Hadoop中的GenericWritable
一:背景 某些业务的数据来源可能不同,且数据源中的分割方式也不同,导致在MapReduce编程时使用的格式化类会不同,为了包装不同的Map输出,Hadoop提供了GenericWritable类,允许我们同时操作多个不同的Map输出,输出到一个Reduce中进行处理。 技术实现: 我们对HDFS中两
分类:其他好文   时间:2016-01-31 21:22:10    阅读次数:375
使用pymysql连接MySql数据库
MySQLdb安装失败了,直接使用pymysql,安装了pymysql。 并学习了使用使用pymysql创建数据库和表,并插入数据。 __author__ = 'Administrator' import pymysql try: conn= pymysql.connect(host='localh...
分类:数据库   时间:2016-01-31 21:19:56    阅读次数:8655
MapReduce实现等值连接,左外连接,右外连接,全外连接
#测试数据: # more user.txt(用户ID,用户名) [java] view plain copy 1 lavimer 2 liaozhongmin 3 liaozemin #more post.txt(用户ID,帖子ID,标题) [java] view plain copy 1 1 j
分类:其他好文   时间:2016-01-31 21:20:28    阅读次数:231
UDTF
UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。 编写自己的UDTF: 1.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。 2.
分类:其他好文   时间:2016-01-31 21:20:33    阅读次数:659
mac下已装virtualbox运行genymotion还报错找不到虚拟机的解决办法
sudo ln -s /usr/local/bin/VBoxManage /usr/bin/VBoxManage
分类:系统相关   时间:2016-01-31 21:21:41    阅读次数:258
MapReduce过程详解
Hadoop越来越火,围绕Hadoop的子项目更是增长迅速,光Apache官网上列出来的就十几个,但是万变不离其宗,大部分项目都是基于Hadoop Common。 MapReduce更是核心中的核心。那么到底什么是MapReduce,它具体是怎么工作的呢? 关于它的原理,说简单也简单,随便画个图喷一
分类:其他好文   时间:2016-01-31 21:20:30    阅读次数:441
[Javascript] Redirect the browser using JavaScript
Three methods to preform redirection in browser: widnow.location.href window.location.assign window.location.replace 1 & 2, they are pretty much the s
分类:编程语言   时间:2016-01-31 21:18:55    阅读次数:168
Hadoop中SecondaryNameNode工作机制
首先来看一下HDFS的结构,如下图: 如上图,在HDFS架构中,NameNode是职责是管理元数据信息,DataNode的职责是负责数据存储,那么SecondaryNameNode的作用是什么呢? 其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案,下面我们来看
分类:其他好文   时间:2016-01-31 21:20:15    阅读次数:222
【模式识别】SVM核函数
下面是几种经常使用的核函数表示:线性核(Linear Kernel)多项式核(Polynomial Kernel)径向基核函数(Radial Basis Function)也叫高斯核(Gaussian Kernel),由于能够看成例如以下核函数的领一个种形式:径向基函数是指取值只依赖于特定点距离的实
分类:其他好文   时间:2016-01-31 21:18:13    阅读次数:581
POJ1905-Expanding Rods-二分答案
一根细棒升温时会变长,在两面墙中间,会变成一个弓形。 给出变长后的长度,求新的细棒中心与没伸长时的中心的距离。 简单的数学推导后就可以二分答案了,一开始没完全掌握二分的姿势,wa了好多。而且poj double输出要用%f,用%lf就wa了。 #include <cstdio> #include <
分类:其他好文   时间:2016-01-31 21:19:21    阅读次数:218
Storm并发度详解
工作进程(Worker Process) Worker是Spout/Bolt中运行具体处理逻辑的进程。拓扑跨一个或多个Worker进程执行。每个Worker进程是一个物理的JVM和拓扑执行所有任务的一个子集。例如,如果合并并行度的拓扑是300,已经分配50个Worker,然后每个Worker将执行6
分类:其他好文   时间:2016-01-31 21:19:57    阅读次数:263
Hadoop中的Speculative Task调度策略
一:背景 Speculative Task,又叫推测式任务,是指在分布式集群环境下,因为程序bug,负载不均衡或者资源分布不均,造成同一个job多个task运行速度不不一致,有的task运行速度明显要慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则
分类:其他好文   时间:2016-01-31 21:19:07    阅读次数:243
分治法解决寻找数组中最大最小值的问题
输入: 数组A[i,…,j] 输出:数组A[i,…,j]中的max和min 1. If j-i+1 =1 Then 输出A[i],A[i],算法结束 2. If j-i+1 =2 Then 3. If A[i]< A[j] Then输出A[i],A[j];算法结束 4. k<--(j-i+1)/2
分类:编程语言   时间:2016-01-31 21:19:35    阅读次数:231
Hadoop二次排序及MapReduce处理流程实例详解
一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的,在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,网络上已经有很多人分享过了,但是对二次排序的实现原理及整个MapReduce框
分类:编程语言   时间:2016-01-31 21:17:38    阅读次数:243
线程同步辅助类——Exchanger
下面是java6中文API对Exchanger的解释: 能够在对中对元素进行配对和交换的线程的同步点。每一个线程将条目上的某个方法呈现给 exchange 方法。与伙伴线程进行匹配,而且在返回时接收其伙伴的对象。Exchanger 可能被视为 SynchronousQueue 的双向形式。Excha
分类:编程语言   时间:2016-01-31 21:19:02    阅读次数:191
windows系统port监听
通常情况下。假设想发现全部已经使用的和正在监听的port,我们能够使用netstat命令。 netstat并不是一个port扫描工具。假设你想扫描计算机开放了哪些port的话。建议使用本文介绍的方法。 Netstat命令基础 Netstat命令主要用于显示协议统计信息和当前 TCP/IP 网络连接。
分类:Windows程序   时间:2016-01-31 21:17:18    阅读次数:255
Python基础:深浅拷贝
对于数字、字符串深浅拷贝: import copy num = 0 copy_num = copy.copy(num) print("These are normal copy").center(60,'*') print(num,id(num)) print(copy_num,id(copy_nu
分类:编程语言   时间:2016-01-31 21:17:06    阅读次数:203
534条   上一页 1 ... 5 6 7 8 9 10 11 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!