上期与大家分享的传统分类算法都是建立在判别函数的基础上,通过判别函数值来确定目标样本所属的分类,这类算法有个最基本的假设:线性假设。今天继续和大家分享下比较现代的分类算法:决策树和神经网络。这两个算法都来源于人工智能和机器学习学科。
首先和小伙伴介绍下数据挖掘领域比较经典的Knn(nearest neighbor)算法(最近邻算法)
算法基本思想:
Step1:计算出待测样本与学习集中所有点...
分类:
编程语言 时间:
2014-12-09 10:40:01
阅读次数:
322
NG的课件1,引出常用的优化方法梯度下降法(gradient descent) 对于 ordinary least squares regression, cost function为 求最小值,意味着求导数为0的位置 考虑只有一个样本 这叫做LMS update rule (Least Mean ...
分类:
其他好文 时间:
2014-12-09 08:11:49
阅读次数:
330
每件事做完之后都要有一个总结,多多总结才能多多进步!
文档在磕磕绊绊中写完了,第一次打开文档样本的时候,在想,这个就像是我们做的试卷一样,这是一个材料题,每一个标题下面都像是给了一个长长的题目,然后我们就根据对机房收费系统这个材料的分析进行答题。
看视频的时候,刚开始的时候老师就讲了一句说:软件是由一个能实现功能的软件、文档和数据组成的,三者缺一不可。后面又实时的强调...
分类:
其他好文 时间:
2014-12-07 12:40:48
阅读次数:
135
原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射或变换的方法,降高维数据降低到低维空间中的数据,这个过程叫特征提取,也称降维。 特征提取得基本任务研究从众多特征中求出那些对分类最有效的特征,从而实现特征空间维数的压缩。传统的降维技术可以分为线性和非线性两类。(1)线性降维算法主要有P...
分类:
其他好文 时间:
2014-12-06 20:14:58
阅读次数:
234
最近使用Theano写了MLP和CNN的程序,由于训练样本大,单靠CPU运算速度so slow;于是乎找到了一台有NAIVID显卡的电脑进行了GPU的配置使用,期间遇到很多问题,记录如下:
平台说明:
系统:WindowsXP
Python:2.7, 建议直接使用 Python(x,y),包含了Theano需要的Numpy等库,省去自己配置
Theano: 0.6
CUDA:3....
分类:
其他好文 时间:
2014-12-06 15:25:07
阅读次数:
228
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, ...
分类:
其他好文 时间:
2014-12-06 09:58:59
阅读次数:
137
kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算法之一,算法思想很简单:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。
分类过程如下:
1 首先我们事先定下k值(就是指k近邻方法的k的大小,代表对于一个待分类的数据点,我们要寻找几个它的邻居)。这边为了说明问题,我们取两个k值,分别为3和5;
2 根据事先确定的距离度量公式(如:欧氏距离),得出待分类数据点和所有已知类别的样本点中,距离最近的k个样本。
3 统...
分类:
编程语言 时间:
2014-12-06 08:51:50
阅读次数:
365
8.1.4 在 F# 中使用函数列表
首先,我们声明一个表示有关客户信息的类型;客户有很多属性,因此,用F# 的记录类型表示最自然的选择,我们在前一章已经看过。清单 8.4 显示了类型声明,和所创建样本客户的代码。
清单 8.4 Client 记录类型和样本值 (F# Interactive)
> type Client =
{ Name : string; Inco...
分类:
其他好文 时间:
2014-12-02 10:37:42
阅读次数:
190
原文:【T-SQL系列】常用函数—聚合函数聚合函数平均值AVG、标准偏差STDEV、方差VAR、最大值MAX、最小值MIN、合计SUM、次数COUNT、极差值MAX-MIN、变异系数STDEV/AVG*100
什么是统计统计 就是通过样本特性推断总体特性的过程。类似于赌博,有一定的风险。可信度受取样...
分类:
数据库 时间:
2014-12-02 10:25:04
阅读次数:
535
一、先弄清楚机器学习的几个概念:训练集:训练样本,每个样本都由表示要学习的特征集(输入变量)和目标(输出变量) 设训练样本数为m 输入特征\变量input : x 其中每个样本用 表示(第i个样本),样本中每个特征/输入用表示(第i个样本中的第j个特征) 输出特征/变量output : y 其中.....
分类:
其他好文 时间:
2014-11-29 22:52:46
阅读次数:
262