数据源:在以下链接下载酒类化学成分数据,分为红酒,白酒两种数据文件,红酒和白酒在化学成分上有较明显的差异
http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/
分析过程:
# 1)先将两组数据混合为一组
# 导入数据源
red
white
# 增加新字段type,1-红酒,2-白酒...
分类:
编程语言 时间:
2014-12-26 14:41:50
阅读次数:
425
文本特征提取
词袋(Bag of Words)表征
文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:
标记(tokenizing)文本以及为每一...
分类:
其他好文 时间:
2014-12-16 11:46:54
阅读次数:
203
一、kNN算法分析 K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 ...
分类:
编程语言 时间:
2014-12-15 23:30:03
阅读次数:
605
1.机器学习的真实含义:利用计算机来彰显数据背后的真实含义。或者说把无序的数据转换成有用的信息。2.数值常用的几种表示形式:十进制、二值型、枚举类型。3.如何选择合适的算法?首先考虑使用机器学习算法的目的。考虑想不想预测目标变量的值?如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监...
分类:
其他好文 时间:
2014-12-11 22:13:11
阅读次数:
269
logistic回归一般用于二分类问题,比如判断一封邮件是否为垃圾邮件,判断照片中的人是男是女,预测一场比赛输还是赢......当然也可以用于多分类问题,比如k类别,就进行k次logistic回归。logistic回归算法之所以称作“logistic”,是因为它运用了logistic函数,即sigmoid函数。
logistic回归算法一般用于二分类问题(当然也可以多类别,后面会讲)。
logistic回归的算法思想:
重点在于怎么根据训练数据求得最佳拟合参数Θ?这可以用最优化算法来求解,比如常用的梯度上升...
分类:
编程语言 时间:
2014-12-10 14:18:25
阅读次数:
502
kNN算法,即K最近邻(k-NearestNeighbor)分类算法,是最简单的机器学习算法之一,算法思想很简单:从训练样本集中选择k个与测试样本“距离”最近的样本,这k个样本中出现频率最高的类别即作为测试样本的类别。
分类过程如下:
1 首先我们事先定下k值(就是指k近邻方法的k的大小,代表对于一个待分类的数据点,我们要寻找几个它的邻居)。这边为了说明问题,我们取两个k值,分别为3和5;
2 根据事先确定的距离度量公式(如:欧氏距离),得出待分类数据点和所有已知类别的样本点中,距离最近的k个样本。
3 统...
分类:
编程语言 时间:
2014-12-06 08:51:50
阅读次数:
365
系统的学习机器学习课程让我觉得受益匪浅,有些基础问题的认识我觉得是非常有必要的,比如机器学习算法的类别。
为什么这么说呢?我承认,作为初学者,可能无法在初期对一个学习的对象有全面而清晰的理解和审视,但是,对一些关键概念有一个初步并且较为清晰的认识,有助于让我们把握对问题的认识层次,说白了,就是帮助我们有目的的去学习心得知识,带着问题去学习,充满对解决问题的动力去实验,我觉得这种方式是有益并且良性的。...
分类:
编程语言 时间:
2014-12-04 12:19:28
阅读次数:
164
当我们成功实现一个机器学习算法并将其用于解决实际问题时,常常会发现它的性能(分类、回归准确度)达不到我们足够满意的状态。在这种情况下,我们有以下六种选项来提高当前算法的性能1 增加training set的数目 这种方法适合模型发生过拟合的情况2 减小feature的数量(使用更少featur...
分类:
编程语言 时间:
2014-12-03 19:01:49
阅读次数:
234
转自:http://www.cnblogs.com/tornadomeet/archive/2013/10/29/3395593.html前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘....
分类:
编程语言 时间:
2014-11-30 22:50:48
阅读次数:
278
1.贝叶斯公式每次提到贝叶斯这三个字,心中的仰慕之情油然而生。感觉贝叶斯推断是众多机器学习算法的基础(尤其是统计学习)。一个很简单的公式应用到非常复杂和广泛的领域,真是一件了不起的事情。再讲贝叶斯公式之前,首先回顾一下概率的知识。若 A、B 是两个事件,我们用P(A)表示事件A发生的概率,P(B)表...
分类:
其他好文 时间:
2014-11-26 01:04:44
阅读次数:
321