标签:selector 特征工程 拒绝 his 计算 val 代码 print 影响
如果独立性小,两者相关性高,则说明该特征会对应变量产生比较大的影响,应当选择。
代码实战
// * 2-准备数据
val data = Seq(
(7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
(8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
(9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
)
// * 3-数据解析
val df = spark.createDataset(data).toDF("id", "features", "clicked")
// * 4-卡方验证
val sqSelector: ChiSqSelector = new ChiSqSelector()
.setNumTopFeatures(2)
.setLabelCol("clicked")
.setFeaturesCol("features")
// * 5-得到结果
println("selected 2 features:")
sqSelector.fit(df).transform(df).show(false)
标签:selector 特征工程 拒绝 his 计算 val 代码 print 影响
原文地址:https://www.cnblogs.com/haojia/p/12388764.html