贝叶斯定理的思想出现在18世纪,但真正大规模派上用途还得等到计算机的出现。因为这个定理需要大规模的数据计算推理才能凸显效果,它在很多计算机应用领域中都大有作为,如自然语言处理,机器学习,推荐系统,图像识别,博弈论等等。本文先介绍贝叶斯定义,然后对定义进行解释,再通过一些列子的分析,力图让贝叶斯定理通...
分类:
其他好文 时间:
2014-10-22 08:44:06
阅读次数:
308
大数据的热门使得非常多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作。可是该从何開始呢?要如何才干高速学到一些实用的知识,技能呢?我认为有三个切入点,按照个人特点能够自行选择顺序切入。1机器学习/数据挖掘数据挖掘主要依赖于大部分机器学习算法,近些年因为深度学习算法的开发以及无人驾驶汽车等...
分类:
其他好文 时间:
2014-10-21 21:14:11
阅读次数:
239
http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearninghttp://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorialhttp:/...
分类:
其他好文 时间:
2014-10-19 21:20:01
阅读次数:
187
1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib、MLI、ML Optimizer。ML Optimizer: This layer aims to automating the task of ML pipeline construction....
分类:
编程语言 时间:
2014-10-19 18:30:41
阅读次数:
336
通常预测的点击率都是不准的,需要校准。例如,boosted trees and SVM预测结果趋于保守,即预测的概率偏向于中值;而对于NaiveBayes预测的概率,小概率趋于更小,大概率趋于更大。常用的校准方法有Binning和Pair‐Adjacent
Violators (PAV);下面分别说说这两种方法。
Binning思想比较简单,也容易实现。
需要说明的是,通常校准算法...
分类:
其他好文 时间:
2014-10-18 22:24:00
阅读次数:
713
集成学习:是目前机器学习的一大热门方向,所谓集成学习简单理解就是指采用多个分类器对数据集进行预测,从而提高整体分类器的泛化能力。 我们在前面介绍了。所谓的机器学习就是通过某种学习方法在假设空间中找到一个足够好的函数h逼近f,f是现实数据的分布函数模型,这个近似的函数就是分类器。 我们以分类问...
分类:
其他好文 时间:
2014-10-18 22:12:54
阅读次数:
305
本文主要讲解在matlab中实现Linear Regression和Logistic Regression的代码,并不涉及公式推导。具体的计算公式和推导,相关的机器学习文章和视频一大堆,推荐看Andrew NG的公开课。一、线性回归(Linear Regression)方法一、利用公式 :funct...
分类:
其他好文 时间:
2014-10-18 03:00:32
阅读次数:
357
0 引言机器学习(machine learning)是人工智能的核心研究领域,是智能信息处理的重要途径。监督学习(supervised learning)是机器学习中研究最多、应用最广泛的一种学习途径。在传统的监督学习中,学习系统通过对大量的有标记训练样本(labeled examples)进行学习...
分类:
其他好文 时间:
2014-10-17 23:08:53
阅读次数:
502
半指导学习(Semi-supervised Learning)的概念说起来一点儿也不复杂,即从同时含有标注数据和未标注数据的训练集中学习模型。半指导学习是介于有指导学习与无指导学习之间的一种机器学习方式。在NLP领域的很多任务中,标注数据其实是很难获取的。尤其像句法、语义等训练资源在标注时往往需要比...
分类:
其他好文 时间:
2014-10-17 18:24:53
阅读次数:
243
1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数...
分类:
编程语言 时间:
2014-10-17 11:48:04
阅读次数:
166