这是一个判别式汉语句法分析器的Java实现,基于最大熵模型和最大生成树模型,实现了中文依存句法的自动分析,在封闭测试集(取自训练集)上取得了99.20%的准确率(UA),分析速度达到570.7句/秒。判别式的分析方法该方法采用条件概率模型,将所有依存关系概率的累积作为目标函数的score,取scor...
分类:
其他好文 时间:
2014-11-26 20:37:23
阅读次数:
145
本文是论文笔记,该论文综述了在训练集只有1张图片的时候,进行人脸识别的背景、意义、方法与改进方法等。...
分类:
其他好文 时间:
2014-11-26 01:29:30
阅读次数:
256
这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法,请放心食用。最大熵理论简介最大熵属于辨识模型,能够满足所有已知的约束, 对未知的信息不做任何过分的假设。什么叫已知的约束?本文不会使用晦涩...
分类:
编程语言 时间:
2014-11-23 17:12:39
阅读次数:
208
kNN算法算法优缺点:优点:精度高、对异常值不敏感、无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路:KNN算法(全称K最近邻算法),算法的思想很简单,简单的说就是物以类聚,也就是说我们从一堆已知的训练集中找出k个与目标最靠近的,然后看他们中最多的分类是哪个,就...
分类:
编程语言 时间:
2014-11-14 21:00:57
阅读次数:
321
梯度下降是回归问题中求cost function最小值的有效方法,对大数据量的训练集而言,其效果要好于非迭代的normal equation方法。 在将其用于多变量回归时,有两个问题要注意,否则会导致收敛速度小,甚至无法收敛。1. 特征均一化(Feature Scaling) 当特征量多时,...
分类:
其他好文 时间:
2014-11-08 16:35:06
阅读次数:
135
1.评估分类器性能的度量 当建立好一个分类模型之后,就会考虑这个模型的性能或准确率如何,这里介绍几种分类器评估度量如下表: 假设在有标号的元组组成的训练集上使用分类器。P是正元组数,N是负元组数。度量公式准确率、识别率(TP+TN)/(P+N)错误率、误分类率(FP+FN)/(P+N)敏感度、真.....
分类:
其他好文 时间:
2014-11-01 19:02:37
阅读次数:
5185
一、引言 本材料参考Andrew Ng大神的机器学习课程http://cs229.stanford.edu 在上一篇有监督学习回归模型中,我们利用训练集直接对条件概率p(y|x;θ)建模,例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模(其中g(z)是sigmoi.....
分类:
其他好文 时间:
2014-11-01 17:46:57
阅读次数:
202
给定训练集,我们希望构建该数据联合分布这里,其中是概率,并且,用表示可能的取值。因此,我们构建的模型就是假设是由生成,而是从中随机选择出来的,那么就服从个依赖于的高斯分布中的一个。这就是高斯混合模型。是潜在随机变量,即它是隐藏的或者观察不到的,这将使得估计问题变得棘手。上面公式太多,作一个总结,总体...
分类:
编程语言 时间:
2014-10-30 20:50:13
阅读次数:
448
给定训练集,想把这些样本分成不同的子集,即聚类,,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类中心2. a. 对与每一个聚类中心,计算所有样本到该聚类中心的距离,然后选出距离该聚类中心最近的几个样...
分类:
编程语言 时间:
2014-10-28 20:02:27
阅读次数:
251
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。...
分类:
编程语言 时间:
2014-10-24 13:03:41
阅读次数:
303