码迷,mamicode.com
首页 >  
搜索关键字:聚类    ( 1791个结果
数趣网:是怎样的一个大数据可视化搜索平台?
8月18日,国内首个数据可视化搜索平台——“数趣”将正式上线,它标志着东湖大数据交易中心打通数据变现的“最后一公里”,完成了大数据全产业链的关键布局。数趣网(www.dataqu.cn)是东湖大数据依托大数据采集技术、智能图片识别、中文自然语言处理、主题聚类算法等技术,通..
分类:其他好文   时间:2016-08-04 19:41:24    阅读次数:308
文本去重之MinHash算法
1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard i ...
分类:编程语言   时间:2016-08-03 10:14:33    阅读次数:185
监督学习和无监督学习
监督学习 给出一个算法,需要部分数据集已经有正确答案。比如给定房价数据集。监督学习又叫回归问题 例子:房价预测,癌症预测 无监督学习 样本集未作标记,把一组未标记的数据分成多个聚类 例子:组织计算机集群,社交网络分析 鸡尾酒会问题 从背景噪声中提取有效信息。 [W,s,v]=svd((repmat( ...
分类:其他好文   时间:2016-08-02 00:50:04    阅读次数:362
ML_聚类之Nearest neighbor search
有这么一个问题,说我在看一篇文章,觉得不错,想要从书架的众多书籍中找相类似的文章来继续阅读,这该怎么办? 于是我们想到暴力解决法,我一篇一篇的比对,找出相似的 最近邻的概念很好理解,我们通过计算知道了每一篇文章和目标文章的距离,选择距离最小的那篇作为最相近的候选文章或者距离最小的一些文章作为候选文章 ...
分类:其他好文   时间:2016-07-30 18:05:18    阅读次数:207
数据挖掘的两大基本目标是预测和描述数据
预测主要包括分类 - 将样本划分到几个预定义类之一,回归 - 将皇冠代理网样本映射到一个真实值预测变量上;描述主要包括聚类 - 将样本划分为不同类(无预定义类),关联规则发现 - 发现数据集中不同特征的相关性。本系列其他文章将会分别对这些工作深入进行讲解,如果读者是第一次接触这些概念请不要纠结。 品 ...
分类:其他好文   时间:2016-07-30 16:37:58    阅读次数:554
机器学习讨论组纪要1
机器学习分类 精确学习 符号学习: 例子: 爸爸*爸爸=爷爷。 80 90 年代研究热点。现在基本已经不再研究。 模糊学习 归纳,基于数据做统计。因为大数据技术的发展而变得火热。 模糊学习的分类 数据-归纳,训练-模型-对新的数据,得出结论 督导学习 无督导学习 督导学习 标记 无督导 聚类 常见的 ...
分类:其他好文   时间:2016-07-29 18:34:36    阅读次数:152
机器学习算法比较
原文地址:http://www.csuldw.com/2016/02/26/2016-02-26-choosing-a-machine-learning-classifier/ 本文主要回顾下几个常用算法的适应场景及其优缺点! 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一 ...
分类:编程语言   时间:2016-07-25 09:18:54    阅读次数:383
原型聚类总结
概述原型聚类是指聚类结构能通过一组原型刻画,原型是指样本空间中具有代表性的点。通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解,下面是几种著名的原型聚类算法。K均值算法给定样本集合D,K均值算法针对聚类所得簇划分C,最小化平方误差 E=∑ki=1∑x∈Ci||x?μi||22E = \sum_{i=1}^k \sum_{x\in Ci}||x-\mu_i||_2^2 其中μi=1|...
分类:其他好文   时间:2016-07-19 10:33:59    阅读次数:435
从决策树学习谈到贝叶斯分类算法、EM、HMM --别人的,拷来看看
从决策树学习谈到贝叶斯分类算法、EM、HMM 引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮 ...
分类:编程语言   时间:2016-07-13 15:21:06    阅读次数:275
文本聚类教程
本人曾做机器学习方向,由于实习需要转做文本聚类、分类的工作,虽然大致相似,但仍是新手,过程和结果也仅供大神指教。本博包含了作者两周的专心研究调试及由数千行测试得到了300余行代码精华,如需转载,请注明出处。 什么是文本聚类? 文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个...
分类:其他好文   时间:2016-07-10 19:15:51    阅读次数:737
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!