HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop
1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:
其他好文 时间:
2014-05-10 02:08:24
阅读次数:
327
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello
World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。现在我们以"hadoop...
分类:
其他好文 时间:
2014-05-10 01:54:48
阅读次数:
445
可靠传输的工作原理1 停止等待协议每发送完一个分组,就停止发送,等待对方确认。出现差错,超时重传。
1.1 暂时保留已发送的分组的副本 1.2 分组和确认分组必须进行编号 1.3 重传时间比数据在分组传输的平均往返时间更长一些2
连续ARQ协议(自动重传请求ARQ) 接收方采用累积确认方式,...
分类:
其他好文 时间:
2014-05-05 11:12:09
阅读次数:
338
属于离散监督,是一个简单的分类算法工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。k-...
分类:
其他好文 时间:
2014-05-04 20:00:18
阅读次数:
388
MapReduce
job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:
其他好文 时间:
2014-05-04 10:22:15
阅读次数:
341
前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数...
分类:
其他好文 时间:
2014-05-04 10:02:22
阅读次数:
565
JavaScript动画工作原理完结篇(之四)
在我们的最后一部分中,我们将通过建立事件处理程序,而不是在点击按钮时机器人做出响应,我们的机器人将在屏幕上跟随着鼠标而移动。在这个过程中,我们将讨论跨浏览器的代码,并且触摸屏也可用……...
分类:
编程语言 时间:
2014-05-04 09:30:46
阅读次数:
408
在浏览器中通过查看源代码的方式是无法看到 ASP 源代码的,你只能看到由 ASP
文件输出的结果,而那些只是纯粹的 HTML 而已。这是因为,在结果被送回浏览器前,脚本已经在服务器上执行了。在我们的 ASP 教程中,每个例子都提供隐藏的
ASP 代码。这样会使您更容易理解它们的工作原理。实例:用 A...
分类:
Web程序 时间:
2014-05-03 22:18:11
阅读次数:
404
LVS-NAT模型:工作原理:将内部地址转化为Internets上可用的外部地址。NAT的工作原理是报文头(目标地址、源地址和端口等)被正确改写后,客户相信它们连接一个IP地址,而不同IP地址的服务器组也认为它们是与客户直接相连的。由此,可以用NAT方法将不同IP地址的并行网络服务变..
分类:
其他好文 时间:
2014-05-03 20:35:15
阅读次数:
409