2016年01月31日 > 全部分享！码迷,mamicode.com！

《算法之道》精华算法设计部分

《算法之道》精华算法设计部分本书作者邹恒明，作者另有一本书《数据结构之弦》，以及《操作系统之哲学原理》都是非常好的书这本书能够算得上是深入浅出。文笔非常好，作者加入了非常多自己的思考本文仅包含算法设计部分，算法分析略去，并没有严格依照章节顺序来记录附录算法随想有人喜欢遍历，希望踏遍千山万水

分类：编程语言时间：2016-01-31 21:16:33 阅读次数：226

MapReduce表连接操作之Reduce端join

一：背景 Reduce端连接比Map端连接更为普遍，因为输入的数据不需要特定的结构，但是效率比较低，因为所有数据都必须经过Shuffle过程。二：技术实现基本思路 (1)：Map端读取所有的文件，并在输出的内容里加上标示，代表数据是从哪个文件里来的。 (2)：在reduce处理函数中，按照标识对

分类：其他好文时间：2016-01-31 21:17:42 阅读次数：253

面向对象六大基本原则的理解

在学习设计模式的时候，总是被推荐先学习一下面向对象的六大原则，学习后果然受益匪浅。以下完全是我对六大基本原则的理解，和官网解释可能有出路，而且我更多是站在设计模式的角度，而不是面向对象的角度理解，如果有什么错误，敬亲谅解。 1.开闭原则很多教程都把开闭原则作为这六大原则中最基本的原则，也就是说他是

分类：其他好文时间：2016-01-31 21:17:33 阅读次数：308

Hadoop InputFormat源码分析

平时我们写MapReduce程序的时候，在设置输入格式的时候，总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class)来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat，这是一个抽象类，其子类有专门用于

分类：其他好文时间：2016-01-31 21:16:50 阅读次数：338

PyQt5 笔记（01）：嵌套布局

PyQt5 有四种布局：水平（QHBoxLayout）、竖直（QVBoxLayout）、网格（QGridLayout）、表单（QFormLayout）在窗体中单一的布局应该不难，但若是比较复杂的布局，一般涉及到布局的嵌套，这就头疼了。本文的四个知识点：1. 布局不能直接嵌套（如果我错了，欢迎指正！）

分类：其他好文时间：2016-01-31 21:18:12 阅读次数：798

sublime text 3 快捷键大全以及配置编译环境

Sublime Text 3 快捷键精华版 Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单

分类：其他好文时间：2016-01-31 21:15:22 阅读次数：263

Hive优化之小文件问题及其解决方案

小文件是如何产生的 1.动态分区插入数据，产生大量的小文件，从而导致map数量剧增。 2.reduce数量越多，小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。小文件问题的影响 1.从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所

分类：其他好文时间：2016-01-31 21:17:06 阅读次数：223

less引入、关键字、条件表达式、循环、合并属性

引入：可以引用其他文件使用其变量用法：@import ”main“//引入main.less文件可以带参数：默认once @import（reference）”main“/引用但不输出 @import（inline）”main“/引用但不操作，不能使用其变量 @import（less）”main

分类：其他好文时间：2016-01-31 21:17:36 阅读次数：201

MapReduce排序

一：背景数据排序是许多实际任务执行时需要完成的第一项工作，比如给销售额进行排名、求top N等操作都需要用到排序，使用MapReduce对数据进行简单排序思路是非常简单的。因为MapReduce本身就是支持排序的，MapReduce默认是对Key进行排序，我们可以将要排序的数据作为key进行输出就

分类：编程语言时间：2016-01-31 21:17:30 阅读次数：292

Hadoop TextInputFormat源码分析

InputFormat主要用于描述输入数据的格式(我们只分析新API，即org.apache.hadoop.mapreduce.lib.input.InputFormat)，提供以下两个功能： (1).数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask个数以及对应的spl

分类：其他好文时间：2016-01-31 21:15:11 阅读次数：418

MapReduce二次排序

本文主要介绍下二次排序的实现方式我们知道MapReduce是按照key来进行排序的，那么如果有个需求就是先按照第一个字段排序，在第一个字段相等的情况下，按照第二个字段排序，这就是传说中的二次排序。下面就具体说一下二次排序的实现方式主要就是4点 1.自定义一个Key 为什么要自定义一个Key，我

分类：编程语言时间：2016-01-31 21:13:23 阅读次数：278

Shopnc Model底层隐藏的坑

前段时间实现某一个功能，涉及到对数据表的查询操作，经本地与测试环境测试过后都没问题，这一过程貌似都很顺利，想想是不是要下班了啦（虽然时间好像也不早了）,接着推入正式环境下进行最后的测试(心想应该不会有什么问题吧，毕竟就只是对数据的查询，而且都已经测试过了，数据也完好的输出)；

分类：其他好文时间：2016-01-31 21:14:38 阅读次数：139

邮件撤回

尊贵的邮箱客户，您好！发往21CN企业邮箱的邮件（包含发往21CN企业邮箱其它域的），只要收件方未阅读情况下，可以进行邮件撤回（发出超过3天的邮件，已经被阅读或客户端已从服务器下载（如POP、代POP）则不支持撤回）。登陆网页邮箱查看“邮件跟踪”，对需要撤回的邮件选择“查看详情”，再选择“撤回”

分类：其他好文时间：2016-01-31 21:13:41 阅读次数：147

自定义Writable

自定义Writable Hadoop虽然已经实现了一些非常有用的Writable，而且你可以使用他们的组合做很多事情，但是如果你想构造一些更加复杂的结果，你可以自定义Writable来达到你的目的，我们以注释的方式对自定义Writable进行讲解 [java] view plain copy /*

分类：其他好文时间：2016-01-31 21:14:58 阅读次数：317

Hadoop日志存放位置

初学者运行MapReduce作业时，经常会遇到各种错误，由于缺乏经验，往往不知所云，一般直接将终端打印的错误贴到搜索引擎上查找，以借鉴前人的经验。然而，对于Hadoop而言，当遇到错误时，第一时间应该是查看日志，日志里通常会有详细的错误原因提示，本文将总结Hadoop MapReduce日志存放位置

分类：其他好文时间：2016-01-31 21:14:38 阅读次数：172

分布式文件系统以及对相关节点的简单理解

Distributed File System 1.数据量越来越多，在一个操作系统管辖的范围存储不下来，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，分布式文件系统由此产生。 2.它是一种允许文件通过网络在多台主机上分享的文件系统，可以让多

分类：其他好文时间：2016-01-31 21:14:47 阅读次数：384

MapReduce TopK问题实际应用

一：背景 TopK问题应该是海量数据处理中应用最广泛的了，比如在海量日志数据处理中，对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难，我们完全可以利用MapReduce的Shuffle过程实现排序，然后在Reduce端进行简单的个数判断输出即可。这里还涉及到二次排序，

分类：其他好文时间：2016-01-31 21:13:00 阅读次数：291