Scikit-Learn是基于python的机器学习模块,基于BSD开源许可。Scikit-learn的基本功能主要被分为六个部分,分类,回归,聚类,数据降维,模型选择,数据预处理,具体可以参考官方网站上的文档。NumPy(Numeric Python)系统是Python的一种开源的数值计算扩展,一 ...
分类:
其他好文 时间:
2017-10-28 15:35:24
阅读次数:
190
Part1.乐视网视频推荐系统 推荐系统:和传统的推荐系统架构无异(基础建模+规则) 数据模块特点:用户反馈服务数据-》kv 缓存-》log存储 行为日志-》解析/聚合-》session log-》cf/用户模型 系统推荐流程: 召回:聚类算法;tensorflow(topN);分类,top个性化标 ...
分类:
其他好文 时间:
2017-10-23 18:05:05
阅读次数:
192
前言在之前关于聚类算法的文章中,笔者主要涉及的内容均是和参数求解相关的,如C均值(包括模糊C均值)、混合高斯模型等,而对于一些无参数密度估计的算法尚未讨论,而且一般基于参数密度估计的算法均是建立在假设的概率分布族(如高斯分布、多项式分布等)基础之上的,而在实..
分类:
编程语言 时间:
2017-10-19 19:37:37
阅读次数:
168
利用数据挖掘技术进行在线学习行为研究的一般流程 流程:数据收集,数据预处理,应用数据挖掘方法,解释评估应用。 数据收集:一般有在线学习平台自动完成。 数据预处理:是对数据进行清洗并转换成适合数据挖掘的形式的过程。主要包括数据清洗,数据转换和丰富,数据整合以及数据归约等任务。 数据挖掘方法:分类,聚类 ...
分类:
其他好文 时间:
2017-10-15 18:02:05
阅读次数:
156
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 ...
分类:
其他好文 时间:
2017-10-13 21:24:52
阅读次数:
217
凝聚法分层聚类中有一堆方法可以用来算两点(pair)之间的距离:欧式,欧式平方,manhattan等,还有一堆方法可以算类(cluster)与类之间的距离,什么single-linkage、complete-linkage、还有这个ward linkage。(即最短最长平均,离差平方和) 其他的好像 ...
分类:
其他好文 时间:
2017-10-13 20:04:55
阅读次数:
1730
前一文中已经对推荐算法做了个简单的介绍,最常用的就是协同过滤,可分为基于用户的或者基于作品的。我以mahout对这两个算法进行了测试,发现只用这两个算法来完成推荐的工作,还远远不够。这两算法有以下问题待解决: 1.数据源的广度和精度。 算法需要大量的user_id,product_id,like_n ...
分类:
其他好文 时间:
2017-10-10 19:13:34
阅读次数:
176
Classification(分类),根据文本的特征或属性,划分到已有的类别中。即分类器classifier已被告知有哪些类别。分类器通过对已知分类的数据进行学习,找到这些不同类的特征,再对未分类的数据进行分类。这种提供训练数据的过程属于监督学习supervised learning。 Cluste ...
分类:
其他好文 时间:
2017-10-10 01:19:16
阅读次数:
166
转自穆晨 阅读目录 前言 现实中的聚类分析问题 - 总统大选 K-Means 聚类算法 K-Means性能优化 二分K-Means算法 小结 转自穆晨 阅读目录 前言 现实中的聚类分析问题 - 总统大选 K-Means 聚类算法 K-Means性能优化 二分K-Means算法 小结 回到顶部 前言 ...
分类:
编程语言 时间:
2017-10-08 16:56:16
阅读次数:
285
fast rcnn和rfcn中使用的都是默认的anchor box设置,都是9种,比例为0.5 、1、 2,大小为128、256、512。但我的数据集的gt框更小,需要找到适合我的数据集的anchor box尺寸。 yolo9000提出了用kmeans聚类算法来找到合适的anchor box尺寸。 ...
分类:
其他好文 时间:
2017-10-08 16:09:04
阅读次数:
1899