最近开始折腾数据,起源是多业务数据源需要转换到数据分析平台。这个过程需要跨机器,跨库。同时还需要将业务数据表的内容进行转换,合并,清洗等等操作。经过多方选型,最终决定使用kettle来作为数据抽取处理的工具。但是,在这里,是想吐槽下kettle这东西的问题。1.kettle的版本使用的是5.1,搭建...
分类:
其他好文 时间:
2014-08-28 17:47:45
阅读次数:
308
BUBI架构之旅本系列适用人群: 1、有BI理论基础或BI实战经验者。 2、想自己开发属于自己的BI系统者。以上条件缺一不可,否则,你可能看得不是很懂!【第1期】安装Linux服务器(DB主机与ETL主机)
分类:
其他好文 时间:
2014-08-23 19:04:21
阅读次数:
150
1、Linux简介 Linux这样的操作系统对大家来说应该并不陌生,因为它是目前后台服务器的主流操作系统之一。Linux源自于POSIX与UNIX的多用户、多任务和多CPU的操作系统。 对于Linux的相关描述,有比我说得更加清楚的。下面引自【百度百科】的词条:Linux是一套免费使用和自由传播.....
分类:
数据库 时间:
2014-08-23 18:56:51
阅读次数:
350
缓慢渐变维,即维度中的属性可能会随着时间发生改变,比如包含用户住址Address的DimCustomer维度,用户的住址可能会发生改变,进而影响业务统计精度,DimCustomer维度就是缓慢渐变维(SCD),对于SCD,处理方式通常有以下几种:Type 1:完全不记录历史变化信息,在ETL将数据载...
分类:
其他好文 时间:
2014-08-23 15:19:11
阅读次数:
409
由于公司之前的技术分享,与eventbus和otto相关,因此主要参考了网上的文章,本文以下内容主要参考angeldeviljy 大神的http://www.cnblogs.com/angeldevil/p/3715934.html 文章,特此对其表示感谢. 如若不同意引用和转载,还请劳烦大神联系我...
分类:
移动开发 时间:
2014-08-23 12:39:00
阅读次数:
362
今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
分类:
其他好文 时间:
2014-08-23 02:29:00
阅读次数:
231
评价项目评价结果备注支持平台SUN Solaris、HP-UX、IBM AIX、AS/400、OS/390、Sco UNIX、Linux、Windows 支持数据源DB2、Informix、Oracle、Sybase、SQL Server、Teredata、OleDB、SAS、Text、...
分类:
其他好文 时间:
2014-08-22 19:35:59
阅读次数:
281
http://www.csdn.net/article/2014-08-21/2821304用于恶意软件分析的Maltrieve安全研究人员使用Maltrieve工具收集服务器上的恶意软件。通过这个开源工具,恶意软件分析人员可以通过分析URL链表和已知的托管地址获得最新鲜的样本。Kyle Maxwe...
分类:
其他好文 时间:
2014-08-22 10:27:25
阅读次数:
314