标签:完数 优劣 test 输出 分类 class 数据 属性 表示
训练集(traning set/data):用来训练,产生模型的算法的数据集
测试集(testing set/data):用来训练,产生模型的算法的数据集):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(feature/feature vector):属性集合,通常用一个向量来表示,附属于一个实例。
标记(label):实例类别的标记(用模型测试完数据后得到的结果)。
正例(position example)
反例(negative example)
分类(classification):目标标记为类别型数据(category)。
回归(regression):目标标记为连续性数值(continuous numeric value)。
判定算法优劣的标准:
准确率、速度、强壮性、可规模性、可解释性。
强壮性:当数据中某些关键值缺失的时候,这个算法是否可以表现的非常的好。
可规模性:当数据成指数级增长的时候,是否可以表现的很好。
可解释性:当在做归类的时候,是否可以看出归类后的数据和人为看到的数据相符合。
决策树/判定树(decision tree):
判定树是一个类似于流程图的树结构,其中,每个内部节点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶节点代表类或类分布。树的最顶层是根节点。
信息熵(entropy):
一条信息的信息大小和它的不确定性有直接的关系,要搞清楚非常不确定的事情,需要大量的信息
标签:完数 优劣 test 输出 分类 class 数据 属性 表示
原文地址:https://www.cnblogs.com/vichin/p/9775418.html