1、文件的基本概念
存储外部介质上得数据集,数据集有一个名称就是文件名
文件的分类:
1)用户角度:普通文件和设备文件
2)存储的内容:
ascii文件(文本文件):
存储的流程:根据文本找到其对应的as...
分类:
编程语言 时间:
2014-12-03 00:31:31
阅读次数:
175
Disco是一个轻量级的、开源的基于mapreduce模型计算的框架,Disco强大且易于使用,这都要归功于python,Disco分发且复制数据,可高效安排作业。Disco甚至拥有能对数以亿计的数据点进行索引以及实时查询的工具。Disco于2008年在Nokia研究中心诞生,解决了在大量数据处理方面的挑战。Disco支持大数据集的并行计算,在不可靠的计算机集群中,Disco是一个完美的分析和处理...
分类:
其他好文 时间:
2014-12-02 22:32:39
阅读次数:
206
http://www.cnblogs.com/Azhu/p/4137131.html这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据,即数据不能数字化,例如:An example of categorical attribute is ...
分类:
移动开发 时间:
2014-12-02 13:30:48
阅读次数:
193
原文:《BI项目笔记》创建多维数据集Cube(1)
有两个事实表,因此就有两个度量值组,并且向导将为非维度键的事实表中的每一个数值列创建一个度量值。由于我们这里不需要那么多,所以只选择部分度量值。另外要注意,度量值的名称源于事实表中的列,所有名称由可能相同。但是在多维数据集中,由于度量值的名称必须是...
分类:
其他好文 时间:
2014-12-02 10:22:03
阅读次数:
210
原文:《BI那点儿事》数据流转换——逆透视转换 逆透视转换将来自单个记录中多个列的值扩展为单个列中具有同样值的多个记录,使得非规范的数据集成为较规范的版本。例如,每个客户在列出客户名的数据集中各占一行,在该行的各列中显示购买的产品和数量。逆透视转换将数据集规范之后,客户购买的每种产品在该数据集中各占...
分类:
其他好文 时间:
2014-12-02 10:21:49
阅读次数:
190
原文:《BI项目笔记》数据源视图设置目的数据源视图是物理源数据库和分析维度与多维数据集之间的逻辑数据模型。在创建数据源视图时,需要在源数据库中指定包含创建维度和多维数据集所需要的数据表格和视图。BIDS与数据库连接,读取表格和视图定义,并在数据源视图中存储元数据。元数据是“关于数据的数据”:即表格和...
分类:
其他好文 时间:
2014-12-02 10:20:06
阅读次数:
220
原文:《BI那点儿事》浅析十三种常用的数据挖掘的技术一、前沿 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predicti...
分类:
其他好文 时间:
2014-12-02 10:18:10
阅读次数:
188
原文:《BI项目笔记》多维数据集中度量值设计时的聚合函数Microsoft SQL Server Analysis Services 提供了几种函数,用来针对包含在度量值组中的维度聚合度量值。默认情况下,度量值按每个维度进行求和。但是,通过 AggregateFunction 属性,您可以修改此行为...
分类:
其他好文 时间:
2014-12-02 10:17:06
阅读次数:
190
原文:《BI那点儿事》数据流转换——透视这个和T-SQL中的PIVOT和UNPIVOT的作用是一样的。数据透视转换可以将数据规范或使它在报表中更具可读性。
通过透视列值的输入数据,透视转换将规范的数据集转变成规范程度稍低、但更为简洁的版本。例如,在列有客户名称、产品和购买数量的规范的 Orders ...
分类:
其他好文 时间:
2014-12-02 10:16:13
阅读次数:
181
原文:《BI那点儿事》数据流转换——字词查找转换字词查找转换将从转换输入列的文本中提取的字词与引用表中的字词进行匹配,然后计算出查找表中的字词在输入数据集中出现的次数,并将计数与引用表中的此字词一并写入转换输出的列中。此转换对于创建基于输入文本并带有词频统计信息的自定义词列表很有用。
本章功能:取出...
分类:
其他好文 时间:
2014-12-02 10:15:48
阅读次数:
185