在设计机器学习系统时,一些建议与指导,让我们能明白怎么选择一条最合适,最正确的道路。当我们要开发或者要改进一个机器学习系统时,我们应该接下来做些什么?try smaller sets of features--是为了防止overfitting.当你发现你的预测方法不能成功预测时,接下来你该尝试些什么...
分类:
其他好文 时间:
2015-12-14 18:23:15
阅读次数:
146
第一周:简介机器学习,有监督学习,无监督学习。
1-1
1-2
1-3
1-4
第二周:
2-1
2-2:介绍cost function定义。
2-3:在回归函数是一个经过原点的直线的情况下,演绎cost function最小化的计算。
2-4:在回归函数是一条直线时,通过等高线演绎cost function最小化的计...
分类:
其他好文 时间:
2015-08-21 23:18:43
阅读次数:
187
为什么要了解点数学基础学习大数据分布式计算时多少会涉及到机器学习的算法,所以理解一些机器学习基础,有助于理解大数据分布式计算系统(例如spark)的设计。机器学习中一个常见的就是gradient descent算法,是线性回归问题的一个基础算法。gradient是数学概念。Gradient假设一个函数有n个自变量:f(x1,x2......xn)f(x_1,x_2......x_n),且每个x都是标...
分类:
编程语言 时间:
2015-07-05 09:40:29
阅读次数:
147
统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习(statical machine learning).统计学习的方法是基于数据构建统计模型从而对数据进行预测和分析。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。统...
分类:
其他好文 时间:
2015-05-10 00:49:46
阅读次数:
248
有幸用最近两个月的业余时间把”统计机器学习”一书粗略的学习了一遍,同时结合“模式识别”、“数据挖掘概念与技术”的知识点,对机器学习的一些知识结构进行梳理与总结:
机器学习包括两个主要问题1、学习什么,2、怎么学习。
首先来梳理一下学习什么
一、学习什么
1. 要解决什么问题?机器学习中主要解决以下三类问题:
a) 监督学习问题:给定输入输出集(即人工标记的样本...
分类:
其他好文 时间:
2015-04-14 21:36:54
阅读次数:
165
1.引言 数据挖掘是知识发现过程中的一个关键步骤,一般是指从大量数据中自动发现隐含的的数据关系,并将其转化为计算机可处理的结构化表示。数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其他科学紧密相连,如:统计、机2器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。 ...
分类:
其他好文 时间:
2015-04-02 18:21:02
阅读次数:
1254
在微博上见过很多好资料,可是以前一直没有时间好好看,都只能先转发或者收藏,最后一个学期,一定要先把这些库存一点点清掉。
——————————————————————————————————————————
1.0 卷积神经网络CXXNET
@陈天奇怪 和 @antinucleon 完成的卷积神经网络代码 cxxnet(核心2k代码)和 GPU/CPU 矩阵库 mshadow(3k代码...
分类:
其他好文 时间:
2015-03-13 22:22:49
阅读次数:
400
这个系列的文章主要记录学习《神经网络设计》这本书的收获与总结。第一部分主要介绍三种网络:
感知机
Hamming
Hopfield
感知机采用对称硬极限传输函数hardlims的单层感知机两输入感知机,w11 = -1, w22 = 1如下a = hardlims(n) = hardlims([-1 1]p + b)
HammingHamming网络的目标时判定哪个标准向量最接近输入向量。判定结果由...
分类:
其他好文 时间:
2015-03-13 00:24:59
阅读次数:
194
这篇日志很简单,因为我对R很不熟悉,总共就写过不超过300行代码。但是可能别的初学者朋友也会遇到类似的问题,所以还是简单总结一下:
R是非常好的统计、机器学习、大数据分析工具(Revolution Analytics这个公司2015年1月刚刚被微软收购),但是其自带的编辑器功能太过于简单了,连代码高亮都没有,偶尔用一下还可以忍受,用多了实在受不了。
这时候就想求助于Sublime Te...
分类:
编程语言 时间:
2015-02-26 01:24:36
阅读次数:
269
惰性学习法:简单的存储数据,一直等待,直到给定一个测试元组时才进行泛化,根据对存储的元组的相似性进行分类。kNN(k近邻)分类方法于20世纪50年代提出,由于计算密集型算法,因此到60年代之后随着计算能力增强后才逐步应用。
kNN基于类比学习,将给定的测试元组表示为n维空间中的一个点,n代表属性数目。然后使用某种距离度量方式来寻找与给定测试元组最近的k个训练元组,对这个k个训练元组的类别进行统计...
分类:
其他好文 时间:
2014-12-08 17:47:16
阅读次数:
262