什么是开发数据集? 一个流行的开发策略是为生产环境中的大数据集建立一个较小的、抽样的数据子集,称为开发数据集。这个开发数据集可能只有几百兆字节。当你以单机或者伪分布式模式编写程序来处理它们时,你会发...
分类:
其他好文 时间:
2014-12-08 21:34:08
阅读次数:
387
数据分析算法决策树决策树用于对数据集中的记录进行分类。假设每条记录都含有若干条属性,决策树根据属性进行分类。ID3算法如何决定选取哪条属性来进行划分? 判断条件是根据该属性划分后数据集的信息熵最小(信息熵越小表明数据越整齐),也就是熵差值最大。假设A属性共有n个取值,按照A划分后将获得n个分支,每个...
分类:
编程语言 时间:
2014-12-08 17:10:12
阅读次数:
191
HDFS文件操作 你可以把一个大数据集(100TB)在HDFS中存储为单个文件,而大多数其他的文件系统无力实现这一点。虽然该文件存在多个副本分布在多台机器上来支持并行处理,你也不必考虑这些细节。 ? HDFS (Hadoo...
分类:
其他好文 时间:
2014-12-08 14:03:18
阅读次数:
226
Apriori算法优点:易编码实现缺点:在大数据集上可能较慢适用数据类型:数值型或者标称型算法过程:关联分析是一种在大规模数据集中寻找有意思的关系的任务,这里的有意思的关系有两种:频繁项集(frequent item sets)或关联规则(association rules)。支持度(support...
分类:
编程语言 时间:
2014-12-08 02:00:55
阅读次数:
334
一、营销mis系统抽取数据按月抽取的表的方法:营销表按月抽取的方法:1。没有增量,全量抽取,入库目标地址为ods_yx,数据集成平台。不用入库到镜像库的。要先进行表数据的抽取,把81.34里面的log日志文件删除,然后使用到的程序为:F:\FTP\2013KHPZ里面的入库程序。勾选循环执行LDR,...
分类:
其他好文 时间:
2014-12-08 00:46:36
阅读次数:
235
有这样一个故事:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加,并一直为众商家所津津乐道。"尿布和啤酒":关联规则的一个非常有名的故事。关联规则的是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析。...
分类:
编程语言 时间:
2014-12-07 20:25:12
阅读次数:
682
TDBNavigator 是用来在数据集间移动光标的组件,使用该组件可以实现数据的浏览、添加和删除等操作。又称为数据库导航器。该组件与数据感知组件(如 TDBGrid、TDBEdit)关联使用。在TDBNavigator 组件上共有10个按钮,功能如下:名称功能NbFirst将当前指针移到数据集的第...
分类:
数据库 时间:
2014-12-07 16:27:19
阅读次数:
775
静态游标在打开时会将数据集存储在tempdb中,因此显示的数据与游标打开时的数据集保持一致,在游标打开以后对数据库的更新不会显示在游标中。动态游标在打开后会反映对数据库的更改。所有UPDATE、INSERT 和 DELETE 操作都会显示在游标的结果集中,结果集中的行数据值、顺序和成员在每次提取时都...
分类:
其他好文 时间:
2014-12-07 11:14:38
阅读次数:
208
1. PCA整体思想PCA,Principle Componet Analysis,主成分分析,主要用于数据降维。它通过计算给定数据集的协方差矩阵的特征值和特征向量,来得到数据集最关键的方向(数据集在此方向的投影方差最大,这个能保持最多的信息),并从关键的方向中选取前k个构成k维空间,在此空间中重新...
分类:
其他好文 时间:
2014-12-07 06:28:10
阅读次数:
171
TTable 是 TDataSet 的派生类,它是基于 BDE 数据库引擎的数据集组件,也是一个较简单的数据组件,可以直接从数据库中获取数据表的数据,只需设置连接的数据库属性(Database) 和所要获取的数据表名称(Tablename),所以对于简单的应用来说,使用 TTable 是一种快速的方...