1. 代码实战 结果: scikit-learn 的 datasets 模块包含测试数据相关函数,主要包括三类: datasets.load_*():获取小规模数据集。数据包含在 datasets 里 datasets.fetch_*():获取大规模数据集。需要从网络上下载,函数的第一个参数是 da ...
分类:
其他好文 时间:
2018-09-05 09:14:16
阅读次数:
269
1 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。2 获取数据数据决定了机器学习结果 ...
分类:
其他好文 时间:
2018-09-04 16:54:24
阅读次数:
342
有监督学习虽然高效、应用范围广,但最大的问题就是需要大量的有标签的数据集,但现实生活中我们遇到的大量数据都是没有明确标签的,而且对于庞大的数据集进行标注工作本身也是一项费时费力的工作模式,所以我们希望找到一种方法能自动的挖掘数据集中各变量的关系,然后"总结"出一些规律和特征进行分类,这样的方法我们成... ...
分类:
其他好文 时间:
2018-09-02 00:08:43
阅读次数:
300
这个东西其实很简单 比如我有n个点,我要将他们m类 那么我随机的先去m个点 对与途中的每个点,我计算他们与这m个点的距离 计算完之后,找距离最小的i,将这个点归为点i的那一类 这样我们就得到了m类 然后对于这m类,我们求每一类点的平均值 将这些平均值作为点,再做一次迭代 当迭代到一定次数之后,我们这 ...
分类:
其他好文 时间:
2018-08-31 21:25:07
阅读次数:
100
1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方 ...
分类:
编程语言 时间:
2018-08-30 16:51:47
阅读次数:
276
LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m;然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm);同样的文档中的所有词也会求 ...
分类:
编程语言 时间:
2018-08-30 02:07:57
阅读次数:
298
k均值算法非常简单且使用广泛,但是存在的缺陷有: 1. K值需要预先给定; 属于预先知识,很多情况下K值的估计非常困难。 2. K-Means算法对初始选取的聚类中心点是敏感的; 不同的随机种子点得到的聚类结果完全不同 3. K均值算法并不适合所有的数据类型; 不能处理非球形簇、不同尺寸和不同密度的 ...
分类:
其他好文 时间:
2018-08-29 14:28:10
阅读次数:
170
关于常见的聚类算法的详解可以参见 "K均值聚类和高斯混合聚类" 一文。 本文内容仅适于机器学习初学者 可能刚接触机器学习过后都知道,聚类属于无监督学习的范畴,而分类问题是有监督学习里常见的任务,二者都有个划分类别的过程,为什么聚类方法不能用于分类呢? 我们做分类任务的时候首先需要一批已标注好的样本, ...
分类:
编程语言 时间:
2018-08-28 20:22:26
阅读次数:
189
无监督机器学习算法没有任何监督者提供任何指导。 这就是为什么它们与真正的人工智能紧密结合的原因。 在无人监督的学习中,没有正确的答案,也没有监督者指导。 算法需要发现用于学习的有趣数据模式。 什么是聚类? 基本上,它是一种无监督学习方法,也是用于许多领域的统计数据分析的常用技术。 聚类主要是将观测集 ...
分类:
编程语言 时间:
2018-08-25 18:53:53
阅读次数:
181
在实际的聚类应用中,通常使用k-均值和k-中心化算法来进行聚类分析,这两种算法都需要输入簇数,为了保证聚类的质量,应该首先确定最佳的簇数,并使用轮廓系数来评估聚类的结果。 一,k-均值法确定最佳的簇数 通常情况下,使用肘方法(elbow)以确定聚类的最佳的簇数,肘方法之所以是有效的,是基于以下观察: ...
分类:
其他好文 时间:
2018-08-25 16:33:20
阅读次数:
599