码迷,mamicode.com
首页 > 编程语言 > 详细

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

时间:2018-04-04 16:16:36      阅读:342      评论:0      收藏:0      [点我收藏+]

标签:splay   rac   如何   markdown   有一个   根据   理解   问题   inline   

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

考虑一个极端情况,某个属性(特征)的取值很多,以至于每一个取值对应的类别只有一个。这样根据\[H(D) - H(D|A)\]可以得知后面的那一项的值为0。这样得到信息增益会很大。C4.5算法加了一个惩罚项\[H_A(D) = -\sum_{i=1}^n\dfrac{|D_i|}{|D|}\log_2\dfrac{|D_i|}{|D|}\],如果\(D_i\)越小,那么该惩罚项的值就越大。这样便解决了ID3算法的问题。

如何理解C4.5算法解决了ID3算法的偏向于选择取值较多的特征问题

标签:splay   rac   如何   markdown   有一个   根据   理解   问题   inline   

原文地址:https://www.cnblogs.com/crackpotisback/p/8717414.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!