机器学习算法评估标准:准确率,速度,强壮性(噪音影响较小),可规模性,可解释性。
1、决策树 Decision Tree:决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每一个分支代表一个属性输出,每一个树叶节点代表类(label)或类的分布。树的最顶层是根节点。
2、信息熵:发生一件事情的不确定性越大,我们需要的信息量越大,信息熵也就越大。信息量的度量就等于不确定性的多少。
用bit表示信息量的多少H = -∑P(x)logP(x)
决策树归纳算法通过信息熵计算选择属性判断节点:
信息获取量(Information Gain) Gain(A)=Info(D)-Info_A(D)
通过属性A获取的信息量=没有属性A时所需信息量-有属性A时所需信息量
通过比较每一个节点的Gain信息获取量,来确定哪个属性作为判断节点。
3、算法