1、datax简述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数 ...
分类:
其他好文 时间:
2020-02-27 20:52:31
阅读次数:
264
作为省建系统,可能有来自全省各个部门的数据,当我们需要对这些数据进行分析和展示时,是个棘手的问题 1.每个部门的数据可通过阿里的odps落地到生产库 2.分析图每张图为一张表,表中的数据通过task分析计算增到业务分析表中 3.优点是:页面加载快速 缺点是:无法实时更新 因为表中的数据都是千万级级别 ...
分类:
其他好文 时间:
2020-01-24 00:30:40
阅读次数:
128
SQL left join 例子 with a as( SELECT * from workspace_saiyisai.odps_base_sdkh_mid_roi WHERE pt = '${s1}' ), b as( select _id,device_id,pt FROM sync_mong ...
分类:
数据库 时间:
2020-01-11 11:38:43
阅读次数:
156
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2020-01-10 15:18:38
阅读次数:
116
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2019-12-31 10:38:04
阅读次数:
88
MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高广大ODPS开发者的生产力。 MaxCompute基于ODPS ...
分类:
其他好文 时间:
2019-12-23 17:00:34
阅读次数:
92
一、先导知识 《ODPS权威指南》 DataWorks公开课:https://blog.csdn.net/weixin_34124577/article/details/89590494 DataWorks调度最佳实践:https://www.bilibili.com/video/av4981572 ...
分类:
其他好文 时间:
2019-11-23 12:48:59
阅读次数:
142
现代人的生活是不缺乏刺激的。我们总能在电影院或化身“沙发土豆”,作为旁观者,与凤凰社、夜魔侠、蜘蛛侠等诸多主角们经历了一场场“安全的冒险”,体会他们挣脱束缚的破釜沉舟,欣赏他们踏上未知冒险的勇气。回到真实的商业故事中,很少有人会将阿里与“困境”这样的字眼联系在一起,尤其是在花团锦簇、全民狂欢的双十一... ...
分类:
其他好文 时间:
2019-11-13 13:30:36
阅读次数:
83
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2019-10-28 16:16:23
阅读次数:
116
datax DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 Github项目链接: "Github datax" 简介参考: "CNSD datax简介" ...
分类:
其他好文 时间:
2019-10-15 10:05:37
阅读次数:
86