标签:oracle kafka 大数据 实时同步 共享采集平台
太平洋保险集团 项目背景
根据太平洋保险集团的IT建设规划,在2017年年底,需要完成“一个太保,共同的家园”项目(简称家园项目),旨在给客户提供更加便携、全面的服务,通过一个家园平台,就能够完成所有的服务。
众所周知,太平洋保险的业务范围非常广泛,囊括了产险、寿险、车险等业务,同时,一个险种又由多个系统共同提供服务。现在要在一个平台上完成这些服务,数据的汇聚、集中、转换就成了整个项目的核心与难点。
项目需求
根据太保家园项目的最终目标,在一期建设中,需要将太平洋保险集团下属的寿险,产险,车险等30多个核心系统数据,通过实时同步复制的方式,统一集中到大数据平台。其中涉及数据的转换,标化,清洗,去重等一系列过程,具体需求如下:
1、 需要将核心数据从30多个系统同步到大数据平台的kafka组件。
2、 确保数据复制的实时性(秒级)和数据的准确性
3、 复制的数据需要加上时间,操作类型等标签,便于后端应用识别
4、 以生产环境的dg库作为数据的汇聚源端,减轻对生产库的影响
5、 入kafka的数据格式可灵活配置,以便更好的适配后端应用
6、 需要具备数据操作统计和数据比对功能,便于核对数据的准确性
项目难点
在实现整个家园项目的数据汇聚中,根据项目需求和实际的生产环境情况,要完成整个数据同步,主要存在以下一些难点:
数据准确性要求高。家园平台承载着所有的查询、部分业务办理,如果数据不准确,必然引起业务逻辑混乱,无法为用户提供服务等问题。
解决方案
在此方案中,采用DSG SuperSync产品完成oracle到kafka的数据复制,方案架构如上图所示。在太保的系统架构中,生产中心位于上海,灾备中心位于成都。所有核心系统在本地生产中心均建有一级DG库,在成都灾备中心建有二级DG库。同时,此次项目的大数据中心也位于成都灾备中心。基于这种架构考虑,把数据量较大的全量同步放在成都的二级DG库上,这样可以节省上海到成都的带宽资源,同时提高同步效率。同时增量同步放在上海本地的一级DG库,以满足实时同步的要求。
方案优势
该方案具有以下优势:
DSG SuperSync产品的数据复制效率,在该领域中是最高的。在kafka的投递端,可以采用多线程、多并发等方式进行加速投递,现场效率可以达到每秒2万条的
DSG简介
DSG是领先的致力于数据存储管理的专业厂商,提供优秀的大数据管理软件和数据安全、灾难恢复、数据抽取共享、数据归档检索和一体化管理平台在内的解决方案,产品包括:备份、容灾、数据同步复制/抽取/共享、数据归档、数据稽核等,在国内得到了广泛的应用。目前公司拥有员工近300余人、全国设有3个研发中心、20多个办事处和分支机构,服务网点覆盖全国,在中国市场拥有数百家电信、金融和政府行业的高端用户。
SuperSync数据同步复制软件应用:(国内800余家客户,在原有强大的Oracle的实时同步复制/灾备外,还可以支持Mysql/Sql/DB2/PostgreSql/Hana/Qcubic/Redis/Teradata/浪潮K-DB/达梦/南大Gbase等国内外各类数据库与Hadoop、HBase、Phoneix、Storm、Flume、Spark、Kafka、tibc、阿里云间的实时同步复制,可根据kafka等格式需求定制(添加字段/数据转换/分类等),应用在大数据共享、读写分离和实时灾备等方面。
太平洋保险家园大数据项目DSG应用(30多个Oracle等实时同步到KAFKA)
标签:oracle kafka 大数据 实时同步 共享采集平台
原文地址:http://blog.51cto.com/64239/2128855