码迷,mamicode.com
首页 > 其他好文 > 详细

mahout向量

时间:2014-11-23 17:34:29      阅读:181      评论:0      收藏:0      [点我收藏+]

标签:style   ar   color   使用   sp   strong   数据   on   问题   

一、mahout三种向量:

在mahout中,向量被实现为三个不同的类,每个类都是针对不同场景优化的:DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector。

1、DenseVector可被视为一个double型数组,其大小为数据中的特征个数。因为不管数组的元素之是不是0,数组中所有元素都被预先分配了空间。我们称之为密集的(dense)。

2、RandomAccessSparseVector被实现为integer型和double型之间的一个HashMap,只有非零元素被分配空间。因此,这类向量被成为稀疏向量。

3、SequentialAccessSparseVector实现为两个并列的数组,一个是integer型另一个是double型。其中只保留了非零元素。与面向随机访问的RandomAccessSparseVector不同,它是为顺序读取而优化的。

二、向量选择:

具体选择那种实现依赖于算法。如果算法要对向量的值做许多随机插入和更新,就适合使用像DenseVector和RandomAccessSparseVector这样支持快速随机访问的实现。另一方面,而对于像k-means聚类这样反复计算向量大小的算法,SequentialAccessSparseVector实现的执行速度就会比RandomAccessSparseVector更快。

三、如何将对象转化为向量:

在算法中,每个对象都要转化成一个n维向量。其维度数与对象的特征个数相同。

比如,一堆苹果,他们有不同的形状,重量,颜色。其中有一个苹果,它的形状是3(圆),重量是0.1(kg),颜色绿色600(波长)

那么每个苹果可以对应为向量(3,0.1,600)


但是现在维度有一个问题,就是颜色维度的值将主导最终的结果,比如,一个相对较小的10nm的色差会相当于100倍的重量差异。不过我们可以通过不同维度加权解决这个问题。

mahout向量

标签:style   ar   color   使用   sp   strong   数据   on   问题   

原文地址:http://blog.csdn.net/qinning199/article/details/41412407

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!