数据仓库可以作为数据挖掘和OLAP等分析工具的资料来源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。数据挖掘和OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对数据进行复杂的查询动作,其预设查询条件由...
分类:
其他好文 时间:
2014-07-22 22:46:53
阅读次数:
248
原文出处:http://blog.csdn.net/amblue/article/details/17023485 在NLP和机器学习中经常会遇到这两种显著不同的模型,在学习阶段(训练阶段)和评估阶段(测试阶段)都有不同的表现总结一下它们之间的区别,欢迎补充:1. 二者最本质的区别是建模对象不同 假...
分类:
其他好文 时间:
2014-07-22 22:43:13
阅读次数:
150
Mahout0.9+Hadoop-2.2.0贝叶斯分类纯java实战代码,希望能给搞大数据数据挖掘的java粉们有所帮助,也希望大家提出建议。也希望Mahout社区大牛,帮忙看看我遇到的问题,先在这里谢过了。。...
分类:
其他好文 时间:
2014-07-21 22:47:27
阅读次数:
365
继上篇的kmeans聚类算法,本文讲解了和Kmeans极为类似的kmediod聚类算法,分析了其异同及优缺点,并通过matlab代码实现了kmediod.代码中仍有bug.希望有大神能帮忙看看到底是收敛时间过长导致程序不终止还是代码本身的问题....
分类:
其他好文 时间:
2014-07-21 22:36:13
阅读次数:
580
本文讲解了大数据聚类算法中的一种clara.并通过matalb实例代码实现验证算法...
分类:
其他好文 时间:
2014-07-21 22:28:27
阅读次数:
248
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。
1:简单概念描述
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
事件ai发生的概率用p(ai...
分类:
其他好文 时间:
2014-07-21 22:21:08
阅读次数:
360
此文用matlab实现了k-means聚类算法,虽然代码仍然有bug,但是就结果来说还是很正确的.通读此文对kmeans聚类算法有了更清晰的认识....
分类:
其他好文 时间:
2014-07-21 16:47:54
阅读次数:
312
上一节最后讲到了建立一个extractor的方法,手工建立和机器学习等,这一节详细阐述手工建立pattern的方法。引用Jurafsky教授常说的话: let‘s look at the intuition. Jurafsky教授讲话总是微皱着眉头,感觉很较真...
分类:
其他好文 时间:
2014-07-21 13:30:48
阅读次数:
257
学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监...
分类:
其他好文 时间:
2014-07-21 08:08:39
阅读次数:
327
数据挖掘导论读书笔记之绪论
数据挖掘的前提:数据收集和数据存储技术的快速进步。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。
数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。
数据挖掘与知识发现
数据挖掘是数据库中知识发现不可缺少的一部分(knowled...
分类:
其他好文 时间:
2014-07-20 22:32:24
阅读次数:
284