贝叶斯的应用过滤垃圾邮件贝叶斯分类器的著名的应用就是垃圾邮件过滤了,这方面推荐想详细了解的可以去看看《黑客与画家》或是《数学之美》中对应的章节,贝叶斯的基础实现看这里数据集两个文件夹,分别是正常邮件和垃圾邮件,其中各有25封邮件测试方法从50封邮件中随机选取10封做为测试数据实现细节1.首先我们需要...
分类:
编程语言 时间:
2014-11-19 07:10:16
阅读次数:
371
翻译这件事之所以能达成,仅仅是因为不同的文字系统在记录信息的能力上是等价的。(这个结论很重要)进一步讲,文字只是信息的载体,而并非信息本身。...
分类:
其他好文 时间:
2014-11-09 23:54:38
阅读次数:
393
如果 S 表示一连串特定顺序排列的词 w1, w2,…, wn ,换句话说,S 可以表示某一个由一连串特定顺序排练的词而组成的一个有意义的句子。现在,机器对语言的识别从某种角度来说,就是想知道 S 在文本中出现的可能性,也就是数学上所说的 S 的概率用 P(S) 来表示。利用条件概率的公式,S 这个...
分类:
其他好文 时间:
2014-11-08 17:58:22
阅读次数:
172
#include /* match: search for regexp anywhere in text */int match(char *regexp, char *text){ if (regexp[0] == '^') return matchhere(regexp+1...
分类:
其他好文 时间:
2014-11-08 15:07:31
阅读次数:
166
转自:http://blog.csdn.net/stdcoutzyx/article/details/8522078学习概率的时候,大家一定都学过马尔科夫模型吧,当时就觉得很有意思,后来看了数学之美之隐马模型在自然语言处理中的应用后,看到隐马尔科夫模型竟然能有这么多的应用,并且取得了很好的成果,更觉...
分类:
其他好文 时间:
2014-10-18 16:44:18
阅读次数:
297
一、逻辑回归(LogisticRegression) Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。之前在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地.....
分类:
其他好文 时间:
2014-08-18 23:28:23
阅读次数:
378
在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。 —C.R.劳《统计与真理——怎样运用偶然性》
分类:
其他好文 时间:
2014-07-22 00:11:34
阅读次数:
222
什么是文明?如果突然问大家这个问题,那么你可能会不知如何回答,感觉这是一个只可意会但不可言传的概念。 在新书《文明之光》中,吴军老师为我们带来了答案。继《浪潮之巅》和《数学之美》之后,吴军老师又出力作《文明之光》,将世界各地的主要文明为我们一一呈现和讲解。整套书现在出了第一册和第二册,加起来一共有16章。在这16章中,作者基本按照时间的顺序,从最古老的古埃及文明讲起,一直到美苏在航天方面的竞...
分类:
其他好文 时间:
2014-07-17 19:10:08
阅读次数:
137
上一篇讨论了HMM的基本概念和一些性质,HMM在现实中还是比较常见的,因此也带来一了一系列的HMM应用问题。HMM应用主要面向三个方面:预测、解码和学习。这篇主要讨论预测。简单来说,预测就是给定HMM,和一个观察得到的可观察状态序列,求出通过HMM得到这个序列的概率是多少,这也是一般机器学习等领域中...
分类:
其他好文 时间:
2014-07-16 21:43:46
阅读次数:
218
一直想写点关于数学方面的blog,这对于数据挖掘分析,NLP处理等都有着比较重要的作用,之前在CSDN上想写点HMM方面的文章,一直没写成,最近几天终于抽点时间完成了HMM的文章,加以整理,遂有这个系列文章 首先是对HMM模型的介绍。 传统的马尔可夫模型(Markov Model)主要描述了...
分类:
其他好文 时间:
2014-07-16 21:43:13
阅读次数:
230