2016年01月31日 > 全部分享！码迷,mamicode.com！

Hadoop中的GenericWritable

一：背景某些业务的数据来源可能不同，且数据源中的分割方式也不同，导致在MapReduce编程时使用的格式化类会不同，为了包装不同的Map输出，Hadoop提供了GenericWritable类，允许我们同时操作多个不同的Map输出，输出到一个Reduce中进行处理。技术实现：我们对HDFS中两

分类：其他好文时间：2016-01-31 21:22:10 阅读次数：375

使用pymysql连接MySql数据库

MySQLdb安装失败了，直接使用pymysql，安装了pymysql。并学习了使用使用pymysql创建数据库和表，并插入数据。 __author__ = 'Administrator' import pymysql try: conn= pymysql.connect(host='localh...

分类：数据库时间：2016-01-31 21:19:56 阅读次数：8655

MapReduce实现等值连接，左外连接，右外连接，全外连接

#测试数据： # more user.txt(用户ID，用户名) [java] view plain copy 1 lavimer 2 liaozhongmin 3 liaozemin #more post.txt(用户ID，帖子ID，标题) [java] view plain copy 1 1 j

分类：其他好文时间：2016-01-31 21:20:28 阅读次数：231

UDTF

UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。编写自己的UDTF： 1.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。 2.

分类：其他好文时间：2016-01-31 21:20:33 阅读次数：659

mac下已装virtualbox运行genymotion还报错找不到虚拟机的解决办法

sudo ln -s /usr/local/bin/VBoxManage /usr/bin/VBoxManage

分类：系统相关时间：2016-01-31 21:21:41 阅读次数：258

MapReduce过程详解

Hadoop越来越火，围绕Hadoop的子项目更是增长迅速，光Apache官网上列出来的就十几个，但是万变不离其宗，大部分项目都是基于Hadoop Common。 MapReduce更是核心中的核心。那么到底什么是MapReduce，它具体是怎么工作的呢？关于它的原理，说简单也简单，随便画个图喷一

分类：其他好文时间：2016-01-31 21:20:30 阅读次数：441

[Javascript] Redirect the browser using JavaScript

Three methods to preform redirection in browser: widnow.location.href window.location.assign window.location.replace 1 & 2, they are pretty much the s

分类：编程语言时间：2016-01-31 21:18:55 阅读次数：168

Hadoop中SecondaryNameNode工作机制

首先来看一下HDFS的结构，如下图：如上图，在HDFS架构中，NameNode是职责是管理元数据信息，DataNode的职责是负责数据存储，那么SecondaryNameNode的作用是什么呢？其实SecondaryNameNode是hadoop1.x中HDFS HA的一个解决方案，下面我们来看

分类：其他好文时间：2016-01-31 21:20:15 阅读次数：222

【模式识别】SVM核函数

下面是几种经常使用的核函数表示：线性核（Linear Kernel）多项式核（Polynomial Kernel）径向基核函数（Radial Basis Function）也叫高斯核（Gaussian Kernel），由于能够看成例如以下核函数的领一个种形式：径向基函数是指取值只依赖于特定点距离的实

分类：其他好文时间：2016-01-31 21:18:13 阅读次数：581

POJ1905-Expanding Rods-二分答案

一根细棒升温时会变长，在两面墙中间，会变成一个弓形。给出变长后的长度，求新的细棒中心与没伸长时的中心的距离。简单的数学推导后就可以二分答案了，一开始没完全掌握二分的姿势，wa了好多。而且poj double输出要用%f，用%lf就wa了。 #include <cstdio> #include <

分类：其他好文时间：2016-01-31 21:19:21 阅读次数：218

Storm并发度详解

工作进程(Worker Process) Worker是Spout/Bolt中运行具体处理逻辑的进程。拓扑跨一个或多个Worker进程执行。每个Worker进程是一个物理的JVM和拓扑执行所有任务的一个子集。例如，如果合并并行度的拓扑是300，已经分配50个Worker，然后每个Worker将执行6

分类：其他好文时间：2016-01-31 21:19:57 阅读次数：263

Hadoop中的Speculative Task调度策略

一：背景 Speculative Task，又叫推测式任务，是指在分布式集群环境下，因为程序bug，负载不均衡或者资源分布不均，造成同一个job多个task运行速度不不一致，有的task运行速度明显要慢于其他task(比如：一个job的某个task进度只有10%，而其他所有task已经运行完毕)，则

分类：其他好文时间：2016-01-31 21:19:07 阅读次数：243

分治法解决寻找数组中最大最小值的问题

输入: 数组A[i,…,j] 输出:数组A[i,…,j]中的max和min 1. If j-i+1 =1 Then 输出A[i],A[i],算法结束 2. If j-i+1 =2 Then 3. If A[i]< A[j] Then输出A[i],A[j];算法结束 4. k<--(j-i+1)/2

分类：编程语言时间：2016-01-31 21:19:35 阅读次数：231

Hadoop二次排序及MapReduce处理流程实例详解

一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的，在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现原理及整个MapReduce框

分类：编程语言时间：2016-01-31 21:17:38 阅读次数：243

线程同步辅助类——Exchanger

下面是java6中文API对Exchanger的解释：能够在对中对元素进行配对和交换的线程的同步点。每一个线程将条目上的某个方法呈现给 exchange 方法。与伙伴线程进行匹配，而且在返回时接收其伙伴的对象。Exchanger 可能被视为 SynchronousQueue 的双向形式。Excha

分类：编程语言时间：2016-01-31 21:19:02 阅读次数：191

windows系统port监听

通常情况下。假设想发现全部已经使用的和正在监听的port，我们能够使用netstat命令。 netstat并不是一个port扫描工具。假设你想扫描计算机开放了哪些port的话。建议使用本文介绍的方法。 Netstat命令基础 Netstat命令主要用于显示协议统计信息和当前 TCP/IP 网络连接。

分类：Windows程序时间：2016-01-31 21:17:18 阅读次数：255

Python基础：深浅拷贝

对于数字、字符串深浅拷贝： import copy num = 0 copy_num = copy.copy(num) print("These are normal copy").center(60,'*') print(num,id(num)) print(copy_num,id(copy_nu

分类：编程语言时间：2016-01-31 21:17:06 阅读次数：203