码迷,mamicode.com
首页 > 其他好文 > 详细

131.007 Unsupervised Learning - Feature Selection | 非监督学习 - 特征选择

时间:2018-06-24 13:00:23      阅读:212      评论:0      收藏:0      [点我收藏+]

标签:algo   ril   一个   sele   png   use   from   term   问题   

1 Why?

  • Reason1 Knowledge Discovery
    (about human beings limitaitons)
  • Reason2 Cause of Dimensionality (维度灾难)
    (about ML algorithm itself)
    所需的数据量会根据你所拥有的特征数量以指数速度增长

    2 NP-Hard Problem

arbitrarily choose m features from n features (m≤n),don‘t know what m truely is before you choose.

技术分享图片

复杂度 exponentail

NP-hard,其中,NP是指非确定性多项式(non-deterministic polynomial,缩写NP)。所谓的非确定性是指,可用一定数量的运算去解决多项式时间内可解决的问题。
NP-hard问题通俗来说是其解的正确性能够被“很容易检查”的问题,这里“很容易检查”指的是存在一个多项式检查算法。相应的,若NP中所有问题到某一个问题是图灵可归约的,则该问题为NP困难问题。

3 Solution: Filtering & Wrapping | 解决方法 过滤&封装

技术分享图片

3.1 Filtering | 过滤

先对特征进行过滤,然后将其传递至学习算法(图示 )
+ Speed (pros)
- Ignores the learning problem(cons)

3.2 Wrapping | 封装

对特征的搜索针对你的学习算法展开
+ take model bias into accounts
- so.... slow

Relevance vs Usefulness

  • Relevance ~ information
  • Usefulness ~ Error

131.007 Unsupervised Learning - Feature Selection | 非监督学习 - 特征选择

标签:algo   ril   一个   sele   png   use   from   term   问题   

原文地址:https://www.cnblogs.com/Neo007/p/9220044.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!