前言本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法、Microsoft 时序算法,后续还补充了二篇结果预测篇、Microsoft 时序算法——结果预算+下期彩票预测篇,看样子...
分类:
数据库 时间:
2014-10-17 23:18:59
阅读次数:
325
前言本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,当然后续还补充了一篇结果预测篇,所涉及的应用场景在前几篇文章中也有介...
分类:
数据库 时间:
2014-10-14 18:59:49
阅读次数:
335
前言本篇文章主要是继续前几篇Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive Bayes 算法,算法介绍后,经过这几种算法综合挖掘和分析之后,对一份摆在公司面前的人员信息列表进行推测,挖掘出这些人员信息中可能购买自行车的群体,把他们交个营销部,剩下的事...
分类:
数据库 时间:
2014-10-10 19:13:44
阅读次数:
219
贝叶斯公式描述的是一组条件概率之间相互转化的关系。
在机器学习中,贝叶斯公式可以应用在分类问题上。这篇文章是基于自己的学习所整理,并利用一个垃圾邮件分类的例子来加深对于理论的理解。
这里我们来解释一下朴素这个词的含义:
1)各个特征是相互独立的,各个特征出现与其出现的顺序无关;
2)各个特征地位同等重要;
以上都是比较强的假设
下面是朴素贝叶斯分类的流程:...
分类:
其他好文 时间:
2014-10-09 21:39:17
阅读次数:
205
本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。有兴趣的同学可以先参照上面两种算法过程。应用场景介绍通过前面两种算法的应用场景介绍,此次总结的Microsoft Naiv...
分类:
数据库 时间:
2014-10-09 17:41:57
阅读次数:
241
考虑用机器学习建立一个邮件过滤系统,来将邮件分成垃圾邮件和非垃圾邮件。首先我们建立一个词典,里面包含了邮件中所有的不重复单词。我们用长度为词典中单词数目的特征向量来表示一封邮件。如下所示:表示一封邮件,如果该邮件包含有词典中的第i个单词,那么,否则.为了建模,作一个很强的假设,假设词典中的每个单词是...
分类:
其他好文 时间:
2014-10-08 01:25:54
阅读次数:
385
今天介绍一种简单高效的分类器——朴素贝叶斯分类器(Naive Bayes Classifier)。
相信学过概率论的同学对贝叶斯这个名字应该不会感到陌生,因为在概率论中有一条重要的公式,就是以贝叶斯命名的,这就是“贝叶斯公式”...
分类:
其他好文 时间:
2014-09-30 10:02:52
阅读次数:
221
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-09-27 17:36:30
阅读次数:
185
Bayes公式告诉我们\begin{align*} p(y|x) = \frac{p(x|y)p(y)}{p(x)} \end{align*}其中$p(y)$被称为先验分布,是我们对随机变量$y$的初始信念;$p(x|y)$被称作似然,它表示的是在给定$y$的条件下$x$的概率,这个可从观测数据.....
分类:
其他好文 时间:
2014-09-02 02:38:33
阅读次数:
219
数据挖掘经典算法国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.个人论文采用的是Apriori,所以针对于此...
分类:
其他好文 时间:
2014-08-23 22:52:21
阅读次数:
273