在16S数据分析中,为了减少聚类的时间,提高准确度,需要去除重复序列,而singleton序列因为没有其他的序列作为验证,可信度不是很高,也需要去除,通常情况下使用usearch 完成这2项任务,但是usearch 64位是收费的,而32为的usearch 在64位的red hat 上测试时,去除重 ...
分类:
其他好文 时间:
2016-04-20 15:00:29
阅读次数:
607
K-means算法是比较经典的聚类算法,算法的基本思想是选取K个点(随机)作为中心进行聚类,然后对聚类的结果计算该类的质心,通过迭代的方法不断更新质心,直到质心不变或稍微移动为止,则最后的聚类结果就是最后的聚类结果...
分类:
编程语言 时间:
2016-04-19 17:35:25
阅读次数:
326
为方便,Numpy的所有命名空间都可以通过Scipy访问 比较常用的scipy工具有stats(统计学工具包)、scipy.interpolate(插值,线性的,三次方的)、cluster(聚类)、signal(信号处理) 数据读取,使用scipy下的genformtxt(),读取到数据有(743, ...
分类:
其他好文 时间:
2016-04-18 22:11:20
阅读次数:
137
上一章学习了非监督学习的聚类,聚类算法可以将不同性质的分类分开。这两天学习了apriori算法进行关联分析,感觉是目前最难理解的一章了,并且书中还有个很坑爹的错误,作者存在很大的疏忽。
Apriori算法关联分析:从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。
关联分析应用1:我们以前学习的是根据特性进行分类或者回归预测,并没有挖掘特性之间的关系,关联分析可以用于分析数据...
分类:
编程语言 时间:
2016-04-17 23:02:44
阅读次数:
655
内聚类型: 1.偶然内聚 模块的各成分之间没有关联,只是把分散的功能合并在一起。 例:A模块中有三条语句(一条赋值,一条求和,一条传参),表面上看不出任何联系,但是B、C模块中都用到了这三条语句,于是将这三条语句合并成了模块A。模块A中就是偶然内聚。 2.逻辑内聚 逻辑上相关的功能被放在同一模块中。 ...
分类:
其他好文 时间:
2016-04-17 14:37:30
阅读次数:
215
不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法。 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类;下面用比较简单的zeroR举例说明; 2 复写接口 buildClassif ...
分类:
编程语言 时间:
2016-04-15 21:31:08
阅读次数:
625
kmeans函数用法如下: [IDX,C,sumd,D] = kmeans(X,2,'Distance','city','Replicates',5,'Options',opts); 参数含义如下:IDX: 每个样本点所在的类别C: 所聚类别的中心点坐标位置k*p,k是所聚类别sumd: 每个类内各 ...
分类:
其他好文 时间:
2016-04-14 17:59:16
阅读次数:
177
内聚就是一个模块内各个元素彼此结合的紧密程度。 耦合就是一个软件结构内各个模块之间彼此结合的紧密程度。 内聚类型: 1.偶然内聚 模块的各成分之间没有关联,只是把分散的功能合并在一起。 2.逻辑内聚 逻辑上相关的功能被放在同一模块中。 3.时间内聚 模块完成的功能必须在同一时间内执行,但这些功能只是 ...
分类:
其他好文 时间:
2016-04-13 23:53:55
阅读次数:
423
其经典LeNet5图见网络,对于这一块,菜鸟一个,全做些链接吧: LeNet5图经典讲解:http://blog.csdn.net/zouxy09/article/details/8781543/ 神经网络用于模式识别的主流是有指导学习网络,无指导学习网络更多的是用于聚类分析。 加一点资料吧,对他的 ...
分类:
其他好文 时间:
2016-04-13 23:36:02
阅读次数:
188
K-measns Clustering 1)Original k-means clustering 最经典的聚类算法 缺点一个是k的选择,另一个是init是随机点,最后cluster的结果可能不同,需要测量多次。 2)Sequential k-means clustering 采用增量学习 3)Fo ...
分类:
编程语言 时间:
2016-04-12 01:45:20
阅读次数:
569