前言 以下内容是个人学习之后的感悟,转载请注明出处~ 简介 在之前发表的线性回归、逻辑回归、神经网络、SVM支持向量机等算法都是监督学习算法,需要样本进行训练,且 样本的类别是知道的。接下来要介绍的是非监督学习算法,其样本的类别是未知的。非监督学习算法中,比较有代表性 的就是聚类算法。而聚类算法中, ...
分类:
编程语言 时间:
2017-08-30 15:51:24
阅读次数:
377
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代... ...
分类:
其他好文 时间:
2017-08-29 23:01:59
阅读次数:
293
一。基于密度的聚类算法简介 DBSCAN是数据挖掘中最经典基于密度的聚类算法。 基于密度的聚类算法的核心是,通过某个点r邻域内样本点的数量来衡量该点所在空间的密度。和k-means算法的不同的是: 1.可以不需要事先指定cluster的个数。 2.可以找出不规则形状的cluster。 二。DBSCA ...
分类:
数据库 时间:
2017-08-27 10:08:04
阅读次数:
197
大家接触的第一个聚类方法,十有八九都是K-means聚类啦。该算法十分容易理解,也很容易实现。其实几乎所有的机器学习和数据挖掘算法都有其优点和缺点。那么K-means的缺点是什么呢? 总结为下: (1)对于离群点和孤立点敏感; (2)k值选择; (3)初始聚类中心的选择; (4)只能发现球状簇。 对 ...
分类:
编程语言 时间:
2017-08-26 20:42:16
阅读次数:
165
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代... ...
分类:
其他好文 时间:
2017-08-24 00:03:36
阅读次数:
433
本节课程,需要先完成 扩增子分析解读1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们制作了Usearch要求格 ...
分类:
其他好文 时间:
2017-08-22 01:41:44
阅读次数:
2871
本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并和2提取barcode 质控及样品拆分 切除扩增引物 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们提取barcode,质控及样品拆分,切除扩增引物,经历了 ...
分类:
其他好文 时间:
2017-08-21 20:41:16
阅读次数:
401
<p></p><p><span style="font-size:18px">上几篇博客都是分析的分类器算法(有监督学习),这次就分析一个聚类算法(无监督学习)。</span></p><p><span style="font-size:18px"></span></p><p><span style= ...
分类:
编程语言 时间:
2017-08-20 14:55:10
阅读次数:
233
测试验证环境 数据: 7w+ 条,数据结构如下图: 机器配置: R version: R包性能对比 全局函数及参数设置 ## 全局设置 remove(list=ls()) space_path <- c("E:\\RScore\\kmeans\\") setwd(space_path) Sys.se ...
分类:
编程语言 时间:
2017-08-19 00:53:12
阅读次数:
534
1965年美国加州大学柏克莱分校的扎德教授第一次提出了‘集合’的概念。经过十多年的发展,模糊集合理论渐渐被应用到各个实际应用方面。为克服非此即彼的分类缺点,出现了以模糊集合论为数学基础的聚类分析。用模糊数学的方法进行聚类分析,就是模糊聚类分析。FCM(Fuzzy C-Means)算法是一种以隶属度来 ...
分类:
编程语言 时间:
2017-08-19 00:49:26
阅读次数:
344