码迷,mamicode.com
首页 >  
搜索关键字:数据仓库    ( 1540个结果
数据仓库中的 SQL 性能优化(Hive篇)
一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,...
分类:数据库   时间:2014-08-31 03:58:10    阅读次数:496
数据仓库中的 SQL 性能优化(MySQL篇)
做数据仓库的头两年,使用高配置单机 + MySQL的方式来实现所有的计算(包括数据的ETL,以及报表计算。没有OLAP)。用过MySQL自带的MYISAM和列存储引擎Infobright。这篇文章总结了自己和团队在那段时间碰到的一些常...
分类:数据库   时间:2014-08-30 02:28:49    阅读次数:365
关于现在的实习生活
最近收获: 如果一个公司有针对简单数据的基于关键字(key)的存储和检索的需求,他们可以选择来自系统领域的key-value存储系统。作为选择,他们也可以采用依靠应用程序级的“分片”,通过人工的(哈希)分割他们的数据仓库,通过多个开源的Mysql或者PostGres数据库实例来检索他们的数据。...
分类:其他好文   时间:2014-08-29 18:17:58    阅读次数:219
一步一步配置autolog CDC
CDC的全称是Change Data Capture,主要用在数据仓库中,对原数据库的数据进行抽取、传输到数据仓库中,用于进行分析和统计。CDC有同步模式和异步模式: 1. CDC同步模式: 通过trigger来实现。 2. CDC异步模式: ...
分类:其他好文   时间:2014-08-29 16:27:48    阅读次数:262
ORACLE_CDC
1.?????CDC简介 1.1.????????CDC是一种数据增量处理技术 ???在构建数据仓库系统的ETL过程中,增量数据的抽取是一个非常关键的环节.对解决方案一般有两点要求: l??准确性,能够将业务系统中的数据...
分类:数据库   时间:2014-08-29 14:47:38    阅读次数:389
高聚合 低耦合
高聚合与低耦合,思想用在建设企业数据仓库上...
分类:其他好文   时间:2014-08-25 11:58:34    阅读次数:140
CIO们该如何借助商业智能实现企业核心管理
笔者在利用数据方面作了多方面探索,有以下三点深刻体会:一是数据分析不在于用什么工具,而在于能不能从数据中得到有用的信息并影响企业的业务与管理。很多CIO一听到数据分析,马上就联想到数据仓库、数据挖掘等昂贵的BI软件,在实践中,相比较来说,使用更专业的BI工具效率会..
分类:其他好文   时间:2014-08-22 18:14:00    阅读次数:266
大规模Hadoop集群实践:腾讯分布式数据仓库(TDW)
TDW 是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源...
分类:其他好文   时间:2014-08-21 16:39:04    阅读次数:252
微软云计算介绍与实践(实践之三十九)
……接上一章节,继续扣款(收费)报告。16、小张同学把下面的脚本复制到记事本中,保存并退出记事本。该脚本主要实现按正确的顺序执行所有所需的数据仓库作业17、返回ServiceManagerShell中,小张执行.\RunDWJobs.ps1这个脚本再启动所需的每一个数据仓库作业,该过程需要一定的..
分类:其他好文   时间:2014-08-21 15:14:05    阅读次数:215
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!