用这篇日志记录在做毕业课题的一些思考,按时间分割。2014/02至2014/04:
抽了一些时间,看林轩田老师的《机器学习基石》,大致对机器学习、数据挖掘有了一个认识,数据挖掘更侧重于挖掘大量或潜在的数据,从而对一些问题进行分析,机器学习则是通过大量已知数据的训练,形成机器的思维,从而“学会”对.....
分类:
其他好文 时间:
2014-05-09 10:14:27
阅读次数:
289
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,...
分类:
其他好文 时间:
2014-05-09 03:03:39
阅读次数:
347
在之前为了寻找最有分类器,我们提出了如下优化问题:
在这里我们可以把约束条件改写成如下:
首先我们看下面的图示:
很显然我们可以看出实线是最大间隔超平面,假设×号的是正例,圆圈的是负例。在虚线上的点和在实线上面的两个一共这三个点称作支持向量。现在我们结合KKT条件分析下这个图。
我们从式子和式子可以看出如果那么,
这个也就说明时,w处于可行域的边界上,这时才是起作用的约束...
分类:
其他好文 时间:
2014-05-09 02:33:02
阅读次数:
345
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)OLAP是一种分析技术,具有汇总,合并和聚集功能,以及从不同的角度观察信息的能力。但,对于深层次的分析,如数据分类,聚类和数据随时间变化的特征,仍然需要其他
分析工具。尽管市场上已有许多“数据挖掘系统”,但是并非所有的 都能进行真正的数据挖...
分类:
其他好文 时间:
2014-05-08 20:18:07
阅读次数:
323
1.Apriori算法
如果一个事务中有X,则该事务中则很有可能有Y,写成关联规则
{X}→{Y}
将这种找出项目之间联系的方法叫做关联分析。关联分析中最有名的问题是购物蓝问题,在超市购物时,有一个奇特的现象——顾客在买完尿布之后通常会买啤酒,即{尿布}→{啤酒}。原来,妻子嘱咐丈夫回家的时候记得给孩子买尿布,丈夫买完尿布后通常会买自己喜欢的啤酒。
考虑到规则的合理性,...
分类:
其他好文 时间:
2014-05-07 23:58:32
阅读次数:
529
今天是上课的第一天。真心很感激导师能让我出来学习。今天突然觉得自己要好好学习英语。并不是上课的时候我看不懂裴教授的课件。而是觉得如果英语不好就很像乡巴佬那样,很难接触到高级的东西。
通过今天的听讲,我感觉对数据挖掘的理解更深刻些。 以前总觉得自己研究生的目标是要好好学习算法,好好学习相关的技术。.....
分类:
其他好文 时间:
2014-05-07 20:16:08
阅读次数:
399
Python是一种强大的语言,即可浅尝辄止,也可深入挖掘。很适合做科学计算、数据挖掘等等。今天我将简单介绍一下Python的装饰器(Decorators)的用法 。
假设我们想要庆祝下生日,需要邀请一些朋友过来参加。但是你有个讨厌的朋友,叫Joe,必须不能让他来啊。可能首先你想到的是建一个list,然后迭代查找并移除所有的Joe童鞋。这当然是个好方法,但是这里为了介绍装饰器,我们会用@来完成...
分类:
编程语言 时间:
2014-05-06 23:19:53
阅读次数:
371
最近有个数据挖掘的项目,要求在文本里面写入随机字母并且要1000W个于是就写了个程序用来造数据并记录一下程序写的时候遇到的问题1
未考虑内存溢出的情况,大批量的把数据写入导致内存溢出以后需要谨慎对待目前完整版package test;import java.io.File;import
java.i...
分类:
其他好文 时间:
2014-05-05 11:40:16
阅读次数:
333