标签:
MLlib
支持RDD[Vector]
列式的概括统计,它通过调用 Statistics
的 colStats
方法实现。
colStats
返回一个 MultivariateStatisticalSummary
对象,这个对象包含列式的最大值、最小值、均值、方差等等。
import org.apache.spark.mllib.linalg.Vector import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics} val observations: RDD[Vector] = ... // define an RDD of Vectors
// Compute column summary statistics. val summary: MultivariateStatisticalSummary = Statistics.colStats(observations) println(summary.mean) // a dense vector containing the mean value for each column println(summary.variance) // column-wise variance println(summary.numNonzeros) // number of nonzeros in each column
标签:
原文地址:http://www.cnblogs.com/skyEva/p/5554130.html