标签:概率 sum 公式 方法 分类 决策树 数据 数据集 最大
ID3的决策树中主要使用了香农熵的概念,熵表示了数据的混乱程度,熵的值越大表示混乱程度越大
熵的计算公式为 H = -∑p(xi)log(P(xi)),表示P(xi)表示xi这种情况出现的概率
每次对于特征的选择流程如下,先求出原本数据集的熵值,然后对于每个特征,以此特征作为分类标准之后再进行剩余数据集的熵值,用max(原本数据集的熵值 - 当前数据集的熵值),每次找到最大值进行划分
标签:概率 sum 公式 方法 分类 决策树 数据 数据集 最大
原文地址:https://www.cnblogs.com/lalalatianlalu/p/11321684.html