码迷,mamicode.com
首页 > 2016年01月31日 > 全部分享
《算法之道》精华 算法设计部分
《算法之道》精华 算法设计部分 本书作者邹恒明,作者另有一本书《数据结构之弦》,以及《操作系统之哲学原理》都是非常好的书这本书能够算得上是深入浅出。文笔非常好,作者加入了非常多自己的思考本文仅包含算法设计部分,算法分析略去,并没有严格依照章节顺序来记录 附录 算法随想 有人喜欢遍历,希望踏遍千山万水
分类:编程语言   时间:2016-01-31 21:16:33    阅读次数:226
MapReduce表连接操作之Reduce端join
一:背景 Reduce端连接比Map端连接更为普遍,因为输入的数据不需要特定的结构,但是效率比较低,因为所有数据都必须经过Shuffle过程。 二:技术实现 基本思路 (1):Map端读取所有的文件,并在输出的内容里加上标示,代表数据是从哪个文件里来的。 (2):在reduce处理函数中,按照标识对
分类:其他好文   时间:2016-01-31 21:17:42    阅读次数:253
面向对象六大基本原则的理解
在学习设计模式的时候,总是被推荐先学习一下面向对象的六大原则,学习后果然受益匪浅。以下完全是我对六大基本原则的理解,和官网解释可能有出路,而且我更多是站在设计模式的角度,而不是面向对象的角度理解,如果有什么错误,敬亲谅解。 1.开闭原则 很多教程都把开闭原则作为这六大原则中最基本的原则,也就是说他是
分类:其他好文   时间:2016-01-31 21:17:33    阅读次数:308
Hadoop InputFormat源码分析
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class)来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于
分类:其他好文   时间:2016-01-31 21:16:50    阅读次数:338
PyQt5 笔记(01):嵌套布局
PyQt5 有四种布局:水平(QHBoxLayout)、竖直(QVBoxLayout)、网格(QGridLayout)、表单(QFormLayout)在窗体中单一的布局应该不难,但若是比较复杂的布局,一般涉及到布局的嵌套,这就头疼了。本文的四个知识点:1. 布局不能直接嵌套(如果我错了,欢迎指正!)
分类:其他好文   时间:2016-01-31 21:18:12    阅读次数:798
sublime text 3 快捷键大全以及配置编译环境
Sublime Text 3 快捷键精华版 Ctrl+Shift+P:打开命令面板Ctrl+P:搜索项目中的文件Ctrl+G:跳转到第几行Ctrl+W:关闭当前打开文件Ctrl+Shift+W:关闭所有打开文件Ctrl+Shift+V:粘贴并格式化Ctrl+D:选择单词,重复可增加选择下一个相同的单
分类:其他好文   时间:2016-01-31 21:15:22    阅读次数:263
Hive优化之小文件问题及其解决方案
小文件是如何产生的 1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。 2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。 小文件问题的影响 1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所
分类:其他好文   时间:2016-01-31 21:17:06    阅读次数:223
less引入、关键字、条件表达式、循环、合并属性
引入:可以引用其他文件使用其变量 用法:@import ”main“//引入main.less文件 可以带参数:默认once @import(reference)”main“/引用但不输出 @import(inline)”main“/引用但不操作,不能使用其变量 @import(less)”main
分类:其他好文   时间:2016-01-31 21:17:36    阅读次数:201
MapReduce排序
一:背景 数据排序是许多实际任务执行时需要完成的第一项工作,比如给销售额进行排名、求top N等操作都需要用到排序,使用MapReduce对数据进行简单排序思路是非常简单的。因为MapReduce本身就是支持排序的,MapReduce默认是对Key进行排序,我们可以将要排序的数据作为key进行输出就
分类:编程语言   时间:2016-01-31 21:17:30    阅读次数:292
Hadoop TextInputFormat源码分析
InputFormat主要用于描述输入数据的格式(我们只分析新API,即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1).数据切分:按照某个策略将输入数据切分成若干个split,以便确定MapTask个数以及对应的spl
分类:其他好文   时间:2016-01-31 21:15:11    阅读次数:418
MapReduce二次排序
本文主要介绍下二次排序的实现方式 我们知道MapReduce是按照key来进行排序的,那么如果有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这就是传说中的二次排序。 下面就具体说一下二次排序的实现方式 主要就是4点 1.自定义一个Key 为什么要自定义一个Key,我
分类:编程语言   时间:2016-01-31 21:13:23    阅读次数:278
Shopnc Model底层隐藏的坑
前段时间实现某一个功能,涉及到对数据表的查询操作,经本地与测试环境测试过后都没问题,这一过程貌似都很顺利,想想是不是要下班了啦(虽然时间好像也不早了),接着推入正式环境下进行最后的测试(心想应该不会有什么问题吧,毕竟就只是对数据的查询,而且都已经测试过了,数据也完好的输出);
分类:其他好文   时间:2016-01-31 21:14:38    阅读次数:139
邮件撤回
尊贵的邮箱客户,您好!发往21CN企业邮箱的邮件(包含发往21CN企业邮箱其它域的),只要收件方未阅读情况下,可以进行邮件撤回(发出超过3天的邮件,已经被阅读或客户端已从服务器下载(如POP、代POP)则不支持撤回)。登陆网页邮箱查看“邮件跟踪”,对需要撤回的邮件选择“查看详情”,再选择“撤回”
分类:其他好文   时间:2016-01-31 21:13:41    阅读次数:147
自定义Writable
自定义Writable Hadoop虽然 已经实现了一些非常有用的Writable,而且你可以使用他们的组合做很多事情,但是如果你想构造一些更加复杂的结果,你可以自定义Writable来达到你的目的,我们以注释的方式对自定义Writable进行讲解 [java] view plain copy /*
分类:其他好文   时间:2016-01-31 21:14:58    阅读次数:317
Hadoop日志存放位置
初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于Hadoop而言,当遇到错误时,第一时间应该是查看日志,日志里通常会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置
分类:其他好文   时间:2016-01-31 21:14:38    阅读次数:172
分布式文件系统以及对相关节点的简单理解
Distributed File System 1.数据量越来越多,在一个操作系统管辖的范围存储不下来,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,分布式文件系统由此产生。 2.它是一种允许文件通过网络在多台主机上分享的文件系统,可以让多
分类:其他好文   时间:2016-01-31 21:14:47    阅读次数:384
MapReduce TopK问题实际应用
一:背景 TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduce的Shuffle过程实现排序,然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序,
分类:其他好文   时间:2016-01-31 21:13:00    阅读次数:291
534条   上一页 1 ... 6 7 8 9 10 11 12 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!