在数据挖掘中,K-Means是一种用来计算数据聚集的算法。具体来说,K-Means要解决的问题如下图所示
凭肉眼可以看出,大致可以分为4个点群。但是怎么通过计算机找出这几个点群呢?这就是K-Means要解决的问题。
普通的K-Means算法的步骤如下
(1)随机在图中取K个种子点
(2)对图中的每个点求到这K个点的距离,假设点距离种子点最近,那么属于点群...
分类:
其他好文 时间:
2014-06-05 07:39:11
阅读次数:
733
准备开题报告了,先要熟悉一下领域范围,《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门,用google学术来衡量一下论文数,虽然不够精确但是足以反应一点什么。
当然是选择最近比较热门的,同时参考一下国内的论文数目情况。
关键字
总的
2014
国内总数
2014
推荐
2,480,000
...
分类:
其他好文 时间:
2014-06-05 01:59:36
阅读次数:
241
1.vertica概念
面向数据分析的数据仓库系统解决方案
2.vertica关键特性
Ø 标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境
Ø 高可用:内置的冗余也提升了查询速度
Ø 自动化数据库设计:数据库自动安装、优化、管理
Ø 高级压缩:十多种压缩算法最多可节省90%的空间
Ø 大规模并行处理:运行于低成本的x86型Lin...
分类:
其他好文 时间:
2014-06-02 23:09:24
阅读次数:
483
前言:例行公事,有些人可能不太了解elasticsearch,下面搜了一段,大家瞅一眼。Elasticsearch是一款分布式搜索引擎,支持在大数据环境中进行实时数据分析。它基于ApacheLucene文本搜索引擎,内部功能通过ReSTAPI暴露给外部。除了通过HTTP直接访问Elasticsearch,还可以通过支..
分类:
编程语言 时间:
2014-06-01 13:47:42
阅读次数:
328
数据挖掘系列(4)使用weka做关联规则挖掘weka Apriori算法实例操作详解用
WEKA 进行数据挖掘,第 1 部分: 简介和回归
分类:
其他好文 时间:
2014-06-01 12:22:01
阅读次数:
156
贝叶斯分类是统计学的一个分类方法,基于贝叶斯定理。首先贝叶斯分类的一个核心假设是一个属性值对给定类的影响独立于其他属性的值(类条件独立)。
先来看下条件概率:
设A、B是两个事件,且P(B)>0,则称 为在事件B发生的条件下,事件A的条件概率。
再来看一下贝叶斯定理:。
其中:
X 是类标识未知的数据样本(或数据元组)
如:35岁收入$4000的顾客
...
分类:
其他好文 时间:
2014-06-01 09:52:51
阅读次数:
235
Apriori算法是数据挖掘中一种挖掘关联规则的频繁项集算法。其核心是基于两阶段频集思想的递推算法。
先来了解下关联规则挖掘:
发现事务数据库,关系数据, 或其它信息库中项或数据对象集合间的频繁模式。关联,相关,或因果关系结构。
频繁模式:在数据库中频繁出现的模式(项集, 序列, 等)。
动机是发现数据中的规律性。
如:
购物篮分析:哪些产品更经...
分类:
其他好文 时间:
2014-06-01 09:52:13
阅读次数:
245
(一)搜索引擎的开发一般可分为下面三大部分1、数据採集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个站点的首页...
分类:
其他好文 时间:
2014-05-31 20:04:37
阅读次数:
263
本文转载自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空...
分类:
系统相关 时间:
2014-05-31 11:39:49
阅读次数:
543