码迷,mamicode.com
首页 >  
搜索关键字:reduce    ( 2830个结果
scikit-learn:数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)
本文参考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包括四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。 重要的不翻译:scikit-learn provides a library of transformers, whi...
分类:其他好文   时间:2015-07-17 10:09:01    阅读次数:145
Hadoop学习之自定义二次排序
一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现,本文将通过一个实际的MapReduce二次排序例子讲述二次排序的实现和其MapR...
分类:编程语言   时间:2015-07-16 19:01:38    阅读次数:248
Hadoop学习之Mapreduce执行过程详解
一、MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示:整个流程图具体来说:每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的....
分类:其他好文   时间:2015-07-16 18:44:17    阅读次数:174
python中的map、filter、reduce函数
python中的map、filter、reduce函数(2013-02-19 14:43:36)转载▼三个函数比较类似,都是应用于序列的内置函数。常见的序列包括list、tuple、str。1.map函数map函数会根据提供的函数对指定序列做映射。map函数的定义:map(function, seq...
分类:编程语言   时间:2015-07-16 13:59:55    阅读次数:124
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,...
分类:其他好文   时间:2015-07-14 20:30:00    阅读次数:135
【转】hive优化之--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修...
分类:其他好文   时间:2015-07-14 17:26:21    阅读次数:992
sysutil.c
/* * sysutil.c * * Routines to make the libc/syscall API more pleasant to use. Long term, * more libc/syscalls will go in here to reduce the number of...
分类:其他好文   时间:2015-07-13 15:59:26    阅读次数:175
hadoop在实现kmeans算法——一个mapreduce实施
写mapreduce程序实现kmeans算法。我们的想法可能是1.次迭代后的质心2. map里。计算每一个质心与样本之间的距离,得到与样本距离最短的质心,以这个质心作为key,样本作为value,输出3. reduce里,输入的key是质心,value是其它的样本,这时又一次计算聚类中心,将聚类中心...
分类:编程语言   时间:2015-07-11 13:33:25    阅读次数:866
如何在MAP/REDUCE中不检查输出路径?
前言如果在REDUCE中并没有涉及到生成HDFS文件,比如只是将一些数据写入REDIS,那么每次都要提供一个不存在的OUTPUT,真是挺麻烦的,有没有机制可以让MAP/REDUCE作业不要检查输出路径?检查输出路径的机制经常,我们的输出格式是这样的:job.setOutputFormatClass(TextOutputFor..
分类:其他好文   时间:2015-07-11 06:49:40    阅读次数:159
【MATLAB】Machine Learning (Coursera Courses Outline & Schedule)
主要分享了Coursera 机器学习相关课程材料,包括练习题与我的Matlab解答。 课程涉及技术:梯度下降、线性回归、监督/非监督学习、分类/逻辑回归、正则化、神经网络、梯度检验/数值计算、模型选择/诊断、学习曲线、评估度量、SVM、K-Means聚类、PCA、Map Reduce & Data ...
分类:系统相关   时间:2015-07-11 06:41:10    阅读次数:442
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!