1.机器学习 机器学习是工具,具体应用到某个实际场景下,才是目的。 2.分类 a 监督学习,包括回归(regression),分类(classification)。回归问题,数据可以是连续或者离散,分类问题,数据一般是离散的。 b 理论学习,机器学习目前主流的算法,用算法工具结合具体使用场景,解决问 ...
分类:
其他好文 时间:
2017-11-04 19:27:29
阅读次数:
173
Kmeans算法分析31省市消费水平 运算后; Expenses: 4512.27['江苏', '安徽', '湖南', '湖北', '广西', '海南', '四川', '云南']Expenses: 7754.66['北京', '上海', '广东']Expenses: 5678.62['天津', '浙 ...
分类:
其他好文 时间:
2017-11-04 18:13:16
阅读次数:
175
根据学生月上网时间数据运用DBSCAN算法计算: 运行结果: Labels: [ 0 -1 0 1 -1 1 0 1 2 -1 1 0 1 1 3 -1 -1 3 -1 1 1 -1 1 3 4 -1 1 1 2 0 2 2 -1 0 1 0 0 0 1 3 -1 0 1 1 0 0 2 -1 1 ...
分类:
数据库 时间:
2017-11-04 18:12:40
阅读次数:
369
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y ...
分类:
编程语言 时间:
2017-11-03 15:16:01
阅读次数:
250
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn是Scipy的扩展,建立在NumPy和matplotl ...
分类:
其他好文 时间:
2017-11-03 14:19:59
阅读次数:
179
聚类概念 无监督问题:我们手里没有标签 聚类:相似的东西分到一组 难点:如何评估,如何调参 基本概念 要得到簇的个数,需要指定K值 质心:均值,即向量各维取平均即可 距离的度量:常用欧几里得距离和余弦度(先标准化) 优化目标: 工作流程: 优势: 简单、快速、适合常规数据集 劣势: K值难确定 复杂 ...
分类:
编程语言 时间:
2017-11-02 14:27:19
阅读次数:
258
在分类和聚类运算中我们经常计算两个个体之间的距离,对于连续的数字(Numric)这一点不成问题,但是对于名词性(Norminal)的类别,计算距离很难。即使将类别与数字对应,例如{‘A’,‘B’,‘C’}与[0,1,2]对应,我们也不能认为A与B,B与C距离为1,而A与C距离为2。独热编码正是为了处 ...
分类:
Web程序 时间:
2017-11-01 17:00:38
阅读次数:
500
rcnn:看作分类问题,算法的组合:候选框+卷积提取特征+svm分类 候选框是借用外来的方案,深度学习只是用来提取特征,分类是svm算法,所以不是端到端的方案 1:边缘策略,先根据图像像素之间的关系聚类得到很多的候选框,这部分有很多的方案,比如:selectivesearch 2:根据得到的候选框, ...
分类:
其他好文 时间:
2017-10-31 17:36:41
阅读次数:
163
Python进行KMeans聚类是比较简单的,首先需要import numpy,从sklearn.cluster中import KMeans模块: 然后读取txt文件,获取相应的数据并转换成numpy array: 设置类的数量,并聚类: 完整代码: 运行结果: ...
分类:
编程语言 时间:
2017-10-30 19:50:08
阅读次数:
234
Concepts: 1)combination of random and deterministic approaches 随机和确定性方法的组合 2)the concept of clustering 聚类的概念 3)the concept of a systematic evolution o ...
分类:
其他好文 时间:
2017-10-28 22:05:28
阅读次数:
262