标签:直线 精度 支持向量机 手工 inf 预测概率 fir stack 二进制
目录
只翻译了感兴趣的一些算法,都是一些简单的算法。
CfsSubsetEval:通过考虑每个特征的单独预测能力以及它们之间的冗余成都来评估属性子集的价值
ClassifierAttributeEval:使用用户指定的分类器评估属性的值
ClassifierSubsetEval:对训练数据或单独的测试集评估属性子集
CorrelationAttributeEval:通过度量属性与类之间的相关性来评估属性的价值
GainRatioAttributeEval:通过测量相对于类的增益比来评估属性的价值
InfoGainAttributeEval:通过度量与类相关的信息增益来评估属性的价值
OneRAttributeEval:使用OneR分类器来评估属性的价值
PrincipalComponents:对数据进行主成分分析和转换
与Ranker搜索结合使用降维是通过选择足够的特征向量来解释原始数据中某些百分比的方差来实现的 - 默认0 95(95%)属性噪声可以通过转换到PC空间来过滤,从而消除了一些 最差的特征向量,然后转换回原始空间。
ReliefFAttributeEval:通过重复采样实例并考虑相同和不同类的最近实例的给定属性的值来评估属性的价值。
可以对离散和连续类数据进行操作。
SymmetricalUncertAttributeEval:通过测量关于类的对称不确定性来评估属性的价值。
WrapperSubseEval:使用学习方案评估属性集。
交叉验证用于估计一组属性的学习方案的准确性。
Logistic:用于构建和使用具有岭估计器的多项Logistic回归模型的类。虽然原始Logistic回归不处理实例权重,但我们稍微修改算法来处理实例权重。
MultilayerPerceptron:使用反向传播来学习多层感知器以对实例进行分类的分类器。网络可以手工构建或使用简单的启发式设置。 还可以在训练期间监视和修改网络参数。 此网络中的节点都是sigmoid(除了类是数字时,在这种情况下输出节点变为无阈值线性单位)。
SGD:实现随机梯度下降以学习各种线性模型(二元类SVM,二元类逻辑回归,平方损失,Huber损失和epsilon不敏感损失线性回归)。 全局替换所有缺失值并将名义属性转换为二进制值。 它还标准化所有属性,因此输出中的系数基于标准化数据。
对于数字类属性,必须使用平方,Huber或epsilon-insensitve损失函数。 Epsilon不敏感和Huber丢失可能需要更高的学习率。
SGDText:实现随机梯度下降,用于学习文本数据的线性二元类SVM或二元类逻辑回归。 直接(且仅)对String属性进行操作。 其他类型的输入属性被接受但在训练和分类期间被忽略。
SimpleLogistic:用于构建线性逻辑回归模型的分类器。 使用简单回归函数作为基础学习者的LogitBoost用于拟合逻辑模型。 要执行的最佳LogitBoost迭代次数是交叉验证的,这会导致自动选择属性。
SMO:实现John Platt用于训练支持向量分类器的顺序最小优化算法。
此实现全局替换所有缺失值并将名义属性转换为二进制值。 它还默认将所有属性规范化。 (在这种情况下,输出中的系数基于标准化数据,而不是原始数据---这对于解释分类器很重要。)
使用成对分类(aka 1-vs-1)解决多类问题。
要获得适当的概率估计,请使用适合校准模型的选项到支持向量机的输出。 在多类情况下,使用Hastie和Tibshirani的成对耦合方法耦合预测概率。
注意:为了提高速度,在SparseInstances上操作时应关闭规范化。
VotedPerceptron:由Freund和Schapire实施的投票感知器算法。 全局替换所有缺失值,并将名义属性转换为二进制值。
元学习(meta learning)的另一个更简单直观的说法叫让机器 “学会学习(learning to learn)”,目标是让机器可以从过往的任务中学习出某些知识、模式、或者算法的性质,可以灵活快速的指导新任务的学习,类似像人一样学会根据历史经验“举一反三”。
标签:直线 精度 支持向量机 手工 inf 预测概率 fir stack 二进制
原文地址:https://www.cnblogs.com/ph1sh/p/12245188.html