KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在虚拟筛选,生物测定数据,对化学信息学,J.由阿...
分类:
数据库 时间:
2015-01-01 22:22:14
阅读次数:
234
原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”,虽然发表于2012年,但是作者提出的观点对于今天仍有很多借鉴意义。作者:佩德罗·多明戈斯(Pedro Domi...
分类:
其他好文 时间:
2015-01-01 21:06:49
阅读次数:
691
近来看论文中经常看到GDA和朴素贝叶斯,并且论文中说的算法中用到的贝叶斯公式,对怎么用的原理比较困惑,今天主要看了斯坦福机器学习的关于GDA,NB和LR的讲义部分。理解了贝叶斯公式在GDA和NB中的原理,以及GDA和LR的关系。
与以前学习贝叶斯公式相比贝叶斯公式:对于目标B有不同的到达方式Ai,i=1,2,3,...,n。已知p(Ai)和p(B|Ai)的话,如果知道B发生了,可以知...
分类:
其他好文 时间:
2014-12-31 22:55:38
阅读次数:
599
Spark与Hadoop MapReduce均为开源集群计算系统,但是两者适用的场景并不相同。其中,Spark基于内存计算实现,可以以内存速度进行计算,优化工作负载迭代过程,加快数据分析处理速度;Hadoop MapReduce以批处理方式处理数据,每次启动任务后,需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中,Spark的处理素的可以达到Hadoop
MapReduce...
分类:
其他好文 时间:
2014-12-31 16:26:30
阅读次数:
136
概念学习
许多机器学习问题涉及从特殊训练样例中得到一般概念。比如人们不断学习的一些一般概念和类别。每个概念可被看作一个对象或事件集合,它是从更大的集合中选取的子集(如从动物的集合中选取鸟类),或者是在这个较大集合中定义的布尔函数(如在动物集合中定义的函数,它对鸟类返回true,对其他动物返回false)。
小孩理解一个词义的例子
考虑一个小孩子理解“狗”这个词的意义。假设当小孩的...
分类:
其他好文 时间:
2014-12-31 16:19:50
阅读次数:
133
前言 支持向量机,也即SVM,号称分类算法,甚至机器学习界老大哥。其理论优美,发展相对完善,是非常受到推崇的算法。 本文将讲解的SVM基于一种最流行的实现 - 序列最小优化,也即SMO。 另外还将讲解将SVM扩展到非线性可分的数据集上的大致方法。预备术语 1. 分割超平面:就是决策边界 2...
分类:
其他好文 时间:
2014-12-31 16:11:28
阅读次数:
459
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题...
分类:
其他好文 时间:
2014-12-31 09:56:32
阅读次数:
194
继续上一课最后的问题,当数据是非线性可分的时候需要把数据转化到 Z 空间(线性可分)才可以利用 SVM ,因此需要知道 Z 空间是什么。这节课解决了不用知道具体的 Z 空间就可以利用 SVM 进行分类。
最后,该课程介绍了如何因对过拟化的问题。思想跟十一课介绍的相同,就是设置一个限制条件。...
分类:
其他好文 时间:
2014-12-31 01:08:36
阅读次数:
191
三种类型:不喜欢的-1,魅力一般的-2,极具魅力的-3。样本特征:每年获得的飞行常客里程数,玩视频游戏所耗时间百分比,每周消费的冰淇淋公升数。 1 from numpy import * 2 import matplotlib 3 import matplotlib.pyplot as plt 4 ...
分类:
Web程序 时间:
2014-12-30 21:55:44
阅读次数:
267