详情见图 etl_bst_agg_zw_tkt_model_d.py 支持传递时间参数,不传递时,默认调度昨天的数据 如:python etl_bst_agg_zw_tkt_model_d.py 20200101 20200102 调度20200101这一天的数据 python etl_bst_ag ...
分类:
编程语言 时间:
2020-07-20 13:26:11
阅读次数:
135
操作步骤 1)TmpBstAggZwTktModelD 按天读取Mysql表数据bst_agg_zw_tkt_model_d,存入hive临时表tmp_bst_agg_zw_tkt_model_d(临时表采用txt格式,按年月日进行分区) 2)HiveBstAggZwTktModelD 连接hive ...
分类:
数据库 时间:
2020-07-20 13:08:14
阅读次数:
129
kettle 经常在调度的时候,会出新重复使用的变量,如果使用一次就去输入一次变量,这样非常的浪费时间。为了解决这一问题,我们将环境变量设置为固定的 1.永久设置环境变量 找到自己电脑上的 .kettle 文件夹 下的repositories.xml 打开文件,文件里面是 kv形式,根据自己的需求填 ...
分类:
其他好文 时间:
2020-07-08 15:02:54
阅读次数:
65
方式介绍 1:Select next row: 选择下一行方法 Sequential 默认 顺序的,按照参数化的数据顺序,从上往下一个一个的来取。 Random 随机取,参数化中的数据,每次随机的从中抽取数据。 Unique 唯一,唯一的向下取值,只能被用一次。 2:Update value on: ...
分类:
其他好文 时间:
2020-07-01 12:43:59
阅读次数:
74
现阶段需要做数据库同步工作,目前调研了两个工具datax和kettle 这两者各有优缺点,基本的就不总结了。现在说说一些关键点: 基本方面: 1.datax适合做数据同步工作;kettle适合数据清洗,转换工作 目前成型的可视化界面,datax推荐datax web,kettle后期维护用的界面推荐 ...
分类:
其他好文 时间:
2020-07-01 12:14:39
阅读次数:
421
背景 公司想要将业务系统使用的数据库由 SQL SERVER 切换到 ORACLE,因此需要将原 SQL SERVER 库的数据同步到 ORACLE 库中。 因为涉及的数据表有几百张,数据约百G的级别,一张表开发一个Kettle 太过于繁琐了,因此考虑通过配置完成数据同步。 方案: SQLSERVE ...
分类:
其他好文 时间:
2020-06-30 20:13:31
阅读次数:
128
如何彻底解决Kettle无法连接MySQL8的缺陷?一、背景在使用Kettle对数据进行处理时,最常见的操作莫过于关系数据库的使用,然而使用最新版本Kettle8常面临以下几个痛点:不支持MySQL8。MySQL是当前最流行的开源关系数据库,用户基数仅次于Oracle。由于具有更好的性能,目前很多系统都已经用上了最新版本MySQL8。比较遗憾的是Kettle并不支持该版本数据库的连接。无法在同一转
分类:
数据库 时间:
2020-06-28 18:28:07
阅读次数:
158
让统计个数据,但是数据跑的非常慢不多,还跑到一半报错。 后来让同事帮忙看下。我之前是用的表输入-》插入/更新,后来同事改成了表输入-》表输出。速度非常快,也没报错。 后来我查了下说kattle自带的插入/更新速度非常慢 ...
分类:
其他好文 时间:
2020-06-16 14:45:52
阅读次数:
54
在Ubuntu中用gedit打开一个文件,其中有中文注释,但是中文部分显示乱码。网上查找了很多方法,其中一种是用gconf-editor来处理,但是我打开gconf-editor,其中的apps选项中除了gconf-editor这一个之外没有任何其他的程序,我不知道为什么,也没有细究下去。 另一种解 ...
分类:
系统相关 时间:
2020-06-07 12:35:27
阅读次数:
74