mahout向量

时间：2014-11-23 17:34:29 阅读：181 评论：0 收藏：0 [点我收藏+]

一、mahout三种向量：

在mahout中，向量被实现为三个不同的类，每个类都是针对不同场景优化的：DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector。

1、DenseVector可被视为一个double型数组，其大小为数据中的特征个数。因为不管数组的元素之是不是0，数组中所有元素都被预先分配了空间。我们称之为密集的（dense)。

2、RandomAccessSparseVector被实现为integer型和double型之间的一个HashMap，只有非零元素被分配空间。因此，这类向量被成为稀疏向量。

3、SequentialAccessSparseVector实现为两个并列的数组，一个是integer型另一个是double型。其中只保留了非零元素。与面向随机访问的RandomAccessSparseVector不同，它是为顺序读取而优化的。

二、向量选择：

具体选择那种实现依赖于算法。如果算法要对向量的值做许多随机插入和更新，就适合使用像DenseVector和RandomAccessSparseVector这样支持快速随机访问的实现。另一方面，而对于像k-means聚类这样反复计算向量大小的算法，SequentialAccessSparseVector实现的执行速度就会比RandomAccessSparseVector更快。

三、如何将对象转化为向量：

在算法中，每个对象都要转化成一个n维向量。其维度数与对象的特征个数相同。

比如，一堆苹果，他们有不同的形状，重量，颜色。其中有一个苹果，它的形状是3（圆），重量是0.1（kg），颜色绿色600（波长）

那么每个苹果可以对应为向量（3，0.1，600）

但是现在维度有一个问题，就是颜色维度的值将主导最终的结果，比如，一个相对较小的10nm的色差会相当于100倍的重量差异。不过我们可以通过不同维度加权解决这个问题。

mahout向量

标签：style ar color 使用 sp strong 数据 on 问题

原文地址：http://blog.csdn.net/qinning199/article/details/41412407

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行