码迷,mamicode.com
首页 > 其他好文 > 详细

MapReduce-线性回归

时间:2018-07-23 23:35:18      阅读:193      评论:0      收藏:0      [点我收藏+]

标签:均值   查询   res   gre   com   ace   阶段   imp   rap   

 

线性回归有是三个值很重要:
1. 斜率
2. 截距:x和y轴的交点值;
3. 显著性:数据偏离线性的程度,用以判断数据可以用线性表示的程度;拟合度
 
apache.commons.math3里面有一个simpleRegression专门用于做线性分析;通过add函数来进行添加x值和y值;
 
基因聚合
感悟:Map阶段实现的就是数据的查询,筛选以及数据组织(组织成key,value形式)
算法:
算法一:单值
谈不上,Map阶段根据genId+refence对数据进行过滤(value > 1.04),并按照key(genId+refence)聚合,然后reduce统计数量,其实和wordcount一致;
算法二:均值
Map阶段获取数据,并按照key(genId+refence)进行聚合(key,List<value>;在reduce阶段对数据List<value>取平均值,取>1.04的数据;
 

MapReduce-线性回归

标签:均值   查询   res   gre   com   ace   阶段   imp   rap   

原文地址:https://www.cnblogs.com/xiashiwendao/p/9357308.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!