参考文献:
1. Statistical Language Models Based on Neural Networks
2. A guide to recurrent neural networks and backpropagation
前一篇文章介绍了nnlm,用神经网络来对语言进行建模,nnlm一个很大的优点就是将历史映射到一个低维的空间而并不像普通n-gram,这就降低了...
分类:
其他好文 时间:
2015-03-19 22:12:06
阅读次数:
2611
hinton的论文只下载过一篇,而且没有深入看。但是这两年没少听和看各种机器学习的报告和教程。我觉得最好的两套教程就是andrew和复旦的吴老师这两个了。机器学习本身就是从人工智能脱出的子学科。机器学习要学的内容挺多的。第一次接触直到现在很多概念都是印象,比如加窗,紧支,rbf, cnn, fnn,...
分类:
其他好文 时间:
2015-03-18 17:17:51
阅读次数:
137
感知机应该是机器学习里面最简单的模型了。读一遍文章也能理解作者想表达的意思。因为以前像梯度下降,多项式拟合,神经网络都在Andrew Ng的公开课上看过了。但是真正关于书中的公式却不怎么理解。一些简单的作者也没有推导。毕竟这是机器学习,不是微积分,或者线性代数,或者概率论。微积分,概率论,...
分类:
其他好文 时间:
2015-03-17 21:34:04
阅读次数:
296
为什么要使用Theano?深度学习最好使用一些库,比如Theano。主要是因为反向传播调整参数时,需要求导。链式求导本身没有难处。但是深度学习的神经网络架构设计的比较复杂,层数又多(15层不是梦)。在基本BP网络的三层结构里,链式的长度已经到了5,推导公式已经不忍直视,人工求导显然不是明智的。The...
分类:
其他好文 时间:
2015-03-17 15:43:31
阅读次数:
482
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲机器学习/深度学习算法中常用的正则化方法。(本文会不断补充)正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程,网络在training data上的error渐渐减小,但是在验证集上...
分类:
其他好文 时间:
2015-03-14 18:32:59
阅读次数:
63684
本文是《Neural networks and deep learning》概览 中第三章的一部分,讲machine learning算法中用得很多的交叉熵代价函数。1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为: 其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+...
分类:
其他好文 时间:
2015-03-13 14:27:18
阅读次数:
293
广义线性模型
广义线性模型应满足三个假设:
第一个假设为给定X和参数theta,Y的分布服从某一指数函数族的分布。
第二个假设为给定了X,目标是输出 X条件下T(y)的均值,这个T(y)一般等于y,也有不等的情况,
第三个假设是对假设一种的变量eta做出定义。
指数函数族
前面提到了指数函数族,这里给出定义,满足以下形式的函数构成了指数函数族:...
分类:
其他好文 时间:
2015-03-12 22:33:16
阅读次数:
216
最近阅读了《Neural networks and deep learning》这本书(online book,还没出版),算是读得比较仔细,前面几章涉及的内容比较简单,我着重看了第三章《Improving the way neural networks learn》,涉及深度神经网络优化和训练的各种技术,对第三章做了详细的笔记(同时参考了其他资料,以后读到其他相关的论文资料也会补充或更改),欢迎有...
分类:
Web程序 时间:
2015-03-12 13:21:17
阅读次数:
189
SVM是机器学习中神一般的存在,虽然自深度学习以来有被拉下神坛的趋势,但不得不说SVM在这个领域有着举足轻重的地位。本文从Hard SVM 到 Dual Hard SVM再引进Kernel Trick,然后推广到常用的Soft Kernel SVM。 一、Hard SVM SVM本身是从感知...
分类:
其他好文 时间:
2015-03-11 00:29:17
阅读次数:
120