李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性...
分类:
编程语言 时间:
2015-09-05 23:46:00
阅读次数:
206
discriminative model 和 generative model是机器学习算法中两种概率模型,用来实现对训练样本的概率分布进行建模,在实践中由于经常混淆,现在通过查阅资料,将两者的分别总结于此。...
分类:
其他好文 时间:
2015-08-31 21:47:15
阅读次数:
158
梯度检验是在编写机器学习算法时必备的技术,可以检验所编写的cost函数是否正确cost函数的主要功能是:计算代价函数、计算代价函数对参数的梯度实际程序中,梯度检验要配合cost函数一起使用 ① 给定一组样本及参数初始值 ② 利用cost函数计算grad ③ 利用computeNumericalGra...
分类:
其他好文 时间:
2015-08-31 13:15:55
阅读次数:
165
Introduction决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不太理想。模型组合(比如说有Boosting,Bagging等)与决策树相关的算法比较多,如randomForest、Ad...
分类:
编程语言 时间:
2015-08-29 12:43:17
阅读次数:
427
前言:用途:分类。类似于if-then集合优点:速度快。原则:损失函数最小化,这是所有机器学习算法的原则。步骤:1> 特征选择 2> 决策树生成 3> 决策树修剪决策树模型内部结点和叶结点,太好理解了,无需讨论。if-then 集合if-then 需要保证重要的一点:就是互斥且完备。很好理解。完备保...
分类:
其他好文 时间:
2015-08-29 00:35:39
阅读次数:
279
首先说交叉验证。
交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 能够避免过拟合问题。
交叉验证一般要尽量满足:
1)训练集的比例要足够多,一般大于一半
2)训练集和测试集要均匀抽样
交叉验证主要分成以下几类:
1)Double cross-validation
Double cross...
分类:
其他好文 时间:
2015-08-27 23:03:09
阅读次数:
814
这个系列是为了应对找工作面试时面试官问的算法问题,所以只是也谢算法的简要介绍,后期会陆续补充关于此
算法的常见面问题。
分类的概念就说了,分类一般分为两个阶段:学习阶段以及分类阶段;
常用的分类方法有:
1、决策树
决策树不需要任何领域的知识或者参数的设置,其可以处理高维数据,简单快速。
若分类的数据是连续的,则需要插入分裂点将数据离散化;树建立的过程中,需要按照一定...
分类:
编程语言 时间:
2015-08-27 13:29:02
阅读次数:
208
写在之前:前些文章曾经细数过从决策树、贝叶斯算法等一些简单的算法到神经网络(BP)、支持向量机(SVM)、adaboost等一些较为复杂的机器学习算法(对其中感兴趣的朋友可以往前的博客看看),各种算法各有优缺点,基本上都能处理线性与非线性样本集,然通观这些算法来看,个人感觉对于数据(无论线性还是非线性)的分类上来说,里面比较好的当数BP、SVM、adaboost元算法这三种了,由于前面在介绍相应算法...
分类:
编程语言 时间:
2015-08-26 17:55:03
阅读次数:
2919
摘要主要是通过回归(discrimination learning model)来对机器学习算法建立横向连接,有助于对各类算法的理解和归类。储备知识从统计学角度来讲,一个信号基本上可以分为两个部分:系统性部分和随机分布,系统性部分在我看来是传达的某种规律性的信息,而随机成分就是用来对信号中不能通过规律性的东西进行把握的部分。所以,一般来讲都采用高斯分布进行建模。系统性的部分就是所谓的利用hypoth...
分类:
编程语言 时间:
2015-08-26 12:10:19
阅读次数:
188