2016年01月31日 > 全部分享！码迷,mamicode.com！

Hadoop压缩codec

简介 codec其实就是coder和decoder两个单词的词头组成的缩略词。CompressionCodec定义了压缩和解压缩接口，我们这里讲的codec就是实现了CompressionCodec接口的一些压缩格式的类，下面就是这些类的列表：使用CompressionCodecs解压缩 Comp

分类：其他好文时间：2016-01-31 21:11:36 阅读次数：387

Hive动态分区

Hive默认是静态分区，我们在插入数据的时候要手动设置分区，如果源数据量很大的时候，那么针对一个分区就要写一个insert，比如说，我们有很多日志数据，我们要按日期作为分区字段，在插入数据的时候我们不可能手动的去添加分区，那样太麻烦了。还好，Hive提供了动态分区，动态分区简化了我们插入数据时的繁琐

分类：其他好文时间：2016-01-31 21:12:31 阅读次数：395

侧滑1

如图是效果图我用的是SlidingMenu-master框架来实现的左边的是侧滑界面是一个fragment，右边是一个主界面fragment，在主界面中用的是一个ViewPager来进行切换，自定义个NoScrollViewPager（不能左右划的ViewPager）如下是主界面的代码 pac

分类：其他好文时间：2016-01-31 21:12:41 阅读次数：185

Hive Map Join

Hive中的Map Join即map side join工作原理是在Map端把小表加载到内存中，然后读取大表，和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。 Map Join的优点： 1.不消耗集群的reduce资源。 2.减少了reduce操作，加快了程序执行。 3.降低网络负载

分类：其他好文时间：2016-01-31 21:13:22 阅读次数：397

Hadoop Combiner组件

一：背景在MapReduce模型中，reduce的功能大多是统计分类类型的总量、求最大值最小值等，对于这些操作可以考虑在Map输出后进行Combiner操作，这样可以减少网络传输负载，同时减轻reduce任务的负担。Combiner操作是运行在每个节点上的，只会影响本地Map的输出结果，Combi

分类：其他好文时间：2016-01-31 21:13:04 阅读次数：259

MapReduce自定义分组Group

一：背景在上一篇文章中我们可以对两列数据进行排序，即完成了当第一列相同时第二列数据升序排列的功能，现在我们需要进一步完善一个功能，那就是当第一列相同时求出第二列的最小值或最大值，Hadoop提供了自定义分组的功能，可以满足我们的需求。二：技术实现我们先来看看需求 #当第一列不相等时，第一列按升

分类：其他好文时间：2016-01-31 21:12:43 阅读次数：295

深入理解Java内存模型（三）——顺序一致性

本文属于作者原创，原文发表于InfoQ：http://www.infoq.com/cn/articles/java-memory-model-3 数据竞争与顺序一致性保证当程序未正确同步时，就会存在数据竞争。java内存模型规范对数据竞争的定义如下：在一个线程中写一个变量，在另一个线程读同一个

分类：编程语言时间：2016-01-31 21:10:28 阅读次数：209

邮箱登录网页无法打开

企业邮箱http://mail.21cn.net无法显示，建议点击浏览器的“工具-internet选项”清除浏览器浏览记录，清空cookie，重启浏览器登录。或者换用其他的浏览器。建议测试：点击电脑的“开始”菜单，点击“运行”，输入“cmd"后确定，在弹出的黑色框黏贴输入ping corp.webm

分类：Web程序时间：2016-01-31 21:11:29 阅读次数：786

第一次maven情况

这是本人第一次使用maven这个东西。确切的说，我是一个刚刚毕业的小白程序员，对于这个比首都面貌发展还快的互联网世界，显然在学校里学习的东西都太基础了，不过基础点也好，能最起码对于我们程序员来说，有共同认知的部分，证明还没有脱离队伍太远。废话就不多说了。本次的学习呢。主要是http://www.c

分类：其他好文时间：2016-01-31 21:11:07 阅读次数：507

【转】虚拟机安装Ubuntu的上网设置（有线网络和无线网络）

虚拟机下ubuntu共享方式上网：一. 有线网络在有线网络的条件下，vmware的安装非常简单，上网方式几乎不用怎么设置(默认NAT模式) 如果默认情况下不能上网，则按以下步骤尝试： ********************************************************

分类：系统相关时间：2016-01-31 21:09:21 阅读次数：252

MapReduce默认Counter的含义

MapReduce Counter为我们提供了一个窗口：观察MapReduce job运行期的各种细节数据。今年三月份，我曾专注于MapReduce性能调优工作，是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter，可能有些朋友对它们有些疑问，现在

分类：其他好文时间：2016-01-31 21:10:49 阅读次数：205

MapReduce去重

一：背景很多数据源中的数据都是含有大量重复的，为此我们需要将重复的数据去掉，这也称为数据的清洗，MapReduce从Map端到Reduce端的Shuffle过程天生就有去重的功能，但是这是对输出的Key作为参照进行去重的。所以我们可以将Map端读入Value作为Key输出，就可以很方便的实现去重了

分类：其他好文时间：2016-01-31 21:10:24 阅读次数：213

Hive bucket桶

对于每一个表(table)或者分区，Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除于桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处，比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存

分类：其他好文时间：2016-01-31 21:07:37 阅读次数：217

Spark机器学习读书笔记-CH05

5.2.从数据中提取合适的特征 [root@demo1 ch05]# sed 1d train.tsv > train_noheader.tsv[root@demo1 ch05]# lltotal 42920-rw-r--r-- 1 root root 21972457 Jan 31 15:03 t

分类：其他好文时间：2016-01-31 21:08:04 阅读次数：319

JavaSE配置文件java.util.Properties【单例模式Singleton】

PropertyMgr.java 1 package config; 2 3 import java.io.IOException; 4 import java.util.Properties; 5 6 public class PropertyMgr { 7 8 private static fi

分类：编程语言时间：2016-01-31 21:07:29 阅读次数：193

九度[1080]进制转换

1 # include<iostream> 2 # include<string> 3 # include<cstring> 4 using namespace std; 5 struct bigint{ //定义一个大整数类 6 int a[500]; 7 int remain; 8 int i;

分类：其他好文时间：2016-01-31 21:09:08 阅读次数：207

【转】ubuntu右键在当前位置打开终端

ubuntu右键在当前位置打开终端 ubuntu增加右键命令：在终端中打开软件中心：搜索nautilus-open-terminal安装命令行： sudo apt-get install nautilus-open-terminal 重新加载文件管理器 nautilus -q 或注销再登录

分类：系统相关时间：2016-01-31 21:08:20 阅读次数：214