Machine Learning—AdaBoost algorithm
1、基本算法思路
就是"三个臭皮匠顶个诸葛亮"。将若干个弱分类器(base learner)组合起来,变成一个强分类器。大多数boosting方法都是通过不断改变训练数据的概率(权值)分布,来迭代训练弱学习器的。所以总结而言,boosting需要回答2个问题:
1、如何改变训练数据的概率(权值)分布?
提高哪些...
分类:
其他好文 时间:
2014-08-22 16:20:09
阅读次数:
167
印象笔记同步分享:Machine Learning—Naive Bayesian classification(朴素贝叶斯分类)...
分类:
其他好文 时间:
2014-08-22 16:19:39
阅读次数:
158
向量之间的相似度
度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。
皮尔森相关系数计算公式如下:
分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
因为,所以皮尔森相关系数计算公式还可以写成:
当两个变量的线性关系增强时,相关系数趋于1或-1。
用户评分预测
...
分类:
其他好文 时间:
2014-08-21 19:28:24
阅读次数:
796
从Ⅱ到Ⅳ都在讲的是线性回归,其中第Ⅱ章讲得是简单线性回归(simple linear regression, SLR)(单变量),第Ⅲ章讲的是线代基础,第Ⅳ章讲的是多元回归(大于一个自变量)。 本文的目的主要是对Ⅱ章中出现的一些算法进行实现,适合的人群为已经看完本章节Stanford课程的学者。本人...
分类:
其他好文 时间:
2014-08-14 19:42:19
阅读次数:
216
学习Machine Learning,阅读文献,看各种数学公式的推导,其实是一件很枯燥的事情。有的时候即使理解了数学推导过程,也仍然会一知半解,离自己写程序实现,似乎还有一道鸿沟。所幸的是,现在很多主流的Machine Learning方法,网上都有open source的实现,进一步的阅读这些源码...
分类:
其他好文 时间:
2014-08-09 21:01:49
阅读次数:
2028
实上有许多的途径可以了解机器学习,也有许多的资源例如书籍、公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手。本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学习指引。...
分类:
其他好文 时间:
2014-08-08 16:16:46
阅读次数:
469
向量空间模型 (或者 词组向量模型) 作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。SMART是第一个使用这个模型的信息检索系统。
文档和查询都用向量来表示。
每一维都相当于是一个独立的词组。如果这个术语出现在了文档中,那它在向量中的值就非零。已经有很多不同的方法来计算这些值,这些值...
分类:
其他好文 时间:
2014-08-06 19:24:42
阅读次数:
632
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
I am using pybrain on my Linuxmint 13 x86_64 PC.As what it is described: PyBrain is a modular Machine Learning Library for Python. Its goal is to offe...
分类:
编程语言 时间:
2014-07-28 11:33:00
阅读次数:
292