原文链接 摘要: ◆ ◆ ◆ 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris 数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行。 ◆ ◆ ◆ 菜鸟入 ...
分类:
其他好文 时间:
2017-06-27 20:02:10
阅读次数:
143
欢迎转载,请附上链接 http://blog.csdn.net/iemyxie/article/details/40736773 本文所涉算法均仅仅概述核心思想。详细实现细节參看本博客“数据挖掘算法学习”分类下其它文章,不定期更新中。 參考了很多资料加上个人理解,对十大算法进行例如以下分类: ?分类 ...
分类:
编程语言 时间:
2017-06-26 12:42:19
阅读次数:
354
决策树(decision tree)是一种基本的分类与回归方法。其表示的树型结构,能够觉得是if-else规则的集合。基本的长处是分类可读性好,速度快。一般会有三个步骤:特征选择、决策树的生成和决策树的修剪。 决策树由结点(node)和有向边(directed edge)组成。结点有两类:内部结点( ...
分类:
其他好文 时间:
2017-06-23 22:10:14
阅读次数:
286
目前,机器学习的方法主要有三种:监督学习、半监督学习和无监督学习。监督学习是利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。白话一点,就是根据已知的,推断未知的。代表方法有:Nave Bayes、SVM、决策树、KNN、神经网络以及Logistic分析等; 半监督方法主要考虑如何利 ...
分类:
其他好文 时间:
2017-06-16 21:11:59
阅读次数:
275
在数据挖掘中聚类和分类的原理被广泛的应用. 聚类即无监督的学习. 分类即有监督的学习. 通俗一点的讲就是:聚类之前是未知样本的分类.而是依据样本本身的相似性进行划分为相似的类簇. 而分类是已知样本分类,则须要将样本特征和分类特征进行匹配,进而将每一个样本归入给出的特定的类. 因为本文是对聚类算法中的 ...
分类:
编程语言 时间:
2017-05-26 10:58:00
阅读次数:
227
版权声明:<—— 用心写好你的每一篇文章,转载请注明出处@http://blog.csdn.net/gamer_gyt <—— 版权声明:<—— 用心写好你的每一篇文章,转载请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] 目录(?)[+] 本系列博 ...
分类:
编程语言 时间:
2017-05-22 11:07:15
阅读次数:
258
SparkMLlib学习分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/51693836) 逻辑回归与线性回归类似,但它不属于回归分析家族(主要为二分类),而属于分类家族,差异主要在 ...
分类:
编程语言 时间:
2017-05-20 17:21:28
阅读次数:
284
http://blog.csdn.net/u013300875/article/details/44081067 很多机器学习分类算法,比如支持向量机(svm),假设数据是要线性可分。 如果数据不是线性可分的,我们就必须要采用一些特殊的方法,比如svm的核技巧把数据转换到更高的维度上,在那个高维空间 ...
分类:
其他好文 时间:
2017-05-18 23:11:48
阅读次数:
409
一 分类概述 分类在数据挖掘中是一项很重要的任务。分类的目的是学会一个分类函数或分类模型(也经常称作为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类别。 分类属于一种有指导的学习,模型的学习是在被告知每一个训练样本属于哪个类的“指导”下进行的。并随机的从样本群选取。每一个训练样本另一 ...
分类:
其他好文 时间:
2017-04-24 15:45:15
阅读次数:
151
本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫。 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 ...
分类:
其他好文 时间:
2017-04-24 10:10:06
阅读次数:
193