常用的机器学习&数据挖掘知识(点)
声明:想做机器学习&数据挖掘的学弟学妹,可以看看,转载请说明出处...
常用的机器学习知识(点)
Basis(基础):
MSE(Mean Square Error 均方误差),LMS(LeastMean
Square 最小均方),LSM(Least Square Methods 最小二乘法),MLE(MaximumLikelihoo...
分类:
其他好文 时间:
2014-09-15 22:51:09
阅读次数:
340
2.1.1 文档分析及编码转换: 文档处理第一步,是将文件或web服务器上的一系列二进制字节序列转换为字符序列。 在实际中,首先要判断出文档的编码方式(机器学习分类、启发式等方法),确定文档的类型(word?zip?)然后将字节序列转换成字符序列。 2.1.2 文档单位(document unit)...
分类:
其他好文 时间:
2014-09-15 21:04:59
阅读次数:
250
机器学习(5)之牛顿算法1. 牛顿迭代算法简介 设r是的根,选取作为r的初始近似值,过点做曲线的切线L,L的方程为,求出L与x轴交点的横坐标,称x1为r的一次近似值。过点做曲线的切线,并求该切线与x轴交点的横坐标,称为r的二次近似值。重复以上过程,得r的近似值序列,其中,称为r的次近似值,上式称为....
分类:
其他好文 时间:
2014-09-14 23:28:37
阅读次数:
567
Weka算法Classifier-meta-Bagging源码分析...
分类:
其他好文 时间:
2014-09-14 20:49:17
阅读次数:
480
前言
最近几周花了点时间学习了下今年暑假龙星计划的机器学习课程,具体的课程资料参考见附录。本课程选讲了写ML中的基本模型,同时还介绍了最近几年比较热门,比较新的算法,另外也将ML理论和实际问题结合了起来,比如将其应用在视觉上,web上的等。总之,虽然课程内容讲得不是特别细(毕竟只有那么几节课),但是内容还算比较新和比较全的。学完这些课后,收获还算不少的,至少了解到了自己哪方面的知识比较弱...
分类:
其他好文 时间:
2014-09-14 01:25:10
阅读次数:
321
K近邻很简单。简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别。由于采用k投票机制,所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较...
分类:
其他好文 时间:
2014-09-13 20:04:05
阅读次数:
241
1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大,则信息量越大,熵越大若不确定性越小,则信息量越小,熵越小比如A班对B班,胜率一个为x,另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大,最大值为2也就是说两者势均力敌时,不确定性...
分类:
其他好文 时间:
2014-09-13 20:02:35
阅读次数:
245
本节主要是练习regularization项的使用原则。因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产...
分类:
其他好文 时间:
2014-09-12 16:54:53
阅读次数:
206
scikit-learn 是一个python实现的免费开源的机器学习算法包,从字面意思可知,science 代表科学,kit代表工具箱,直接翻译过来就是用于机器学习的科学计算包。 安装scikit-learn有两种方式: (1)安装官方发布的包。 (2)安装第三方开发工具,里边已经包含了s...
分类:
其他好文 时间:
2014-09-12 11:53:13
阅读次数:
207
课程简介:
本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂...
分类:
其他好文 时间:
2014-09-11 23:57:02
阅读次数:
573