InfoMover实时采集同步:实现数据价值最大化,助力企业数字化转型

1653989737712003.jpg

在这个充满不确定的时代,唯一可以确定的就是企业的数字化转型

数字经济时代,数据生产要素已经明确作为劳动力、资本、技术和土地之后的第五大生产要素,成为推动经济发展的核心力量。数字化转型成为企业高质量发展的重要引擎,促进数字技术与实体经济深度融合也已成为国家“十四五”规划的重要内容。

与此同时,新冠疫情的爆发与蔓延给无数行业带来冲击,让越来越多的行业、企业看到数字化建设、管理、运营的必要性。在这个充满不确定的时代,唯一可以确定的就是企业的数字化转型。

而对于进入数字化转型阶段的企业而言,数据采集同步能力成为桎梏企业通往精益之路的巨大技术阻碍。

拥抱实时数据管理,是数字化转型的必然选择

不论企业数字化转型处于哪一个阶段,数据采集同步都是企业最实际最高频的需求。

一方面,企业的精细化运营对实时数据的需求在不断膨胀,实时数据能够帮助企业以最快速度收集来自传感器(如工业领域的机器转速、温度、压力、流量等)、股票行情、服务器日志、传统数据库甚至是Hadoop系统的数据。以实时或近乎实时的方式挖掘出有价值的信息,对企业快速做出决策有着重大意义。

另一方面,随着生产设备和相关技术的智能化升级,以及全球市场无时无刻都在变化的需求,行业内实时数据的采集与计算相关标准已经提升到了秒级要求,当前的批处理数据架构难以应对,需要构建新一代的实时数据架构体系以实现“换挡加速”。

工具缺乏,自研成本高,企业实时数据采集同步面临严峻挑战

企业在实时数据采集同步过程中面临着以下的挑战:

1.传统数据采集工具单一(例如OGG)、封闭、兼容性弱、非高可用;传统数据传输工具性能差、稳定性低、响应慢。

2.缺乏专业数据采集同步工具,数据采集工具自研难度、成本高、易用性不够,配套工具集成难度大、单独采购成本高,且与实时数据同步工具衔接复杂;

3.缺乏数据采集经验,数据采集覆盖面不全、粒度无法满足自身业务要求;

4.数据获取实时性不够,数据采集到到业务可用时效不确定,多端数据采集不规范;

5.缺乏统一的数据管理与数据加密方案,数据维护成本高;

6.实时开发门槛高,技术人员需要深入学习计算引擎的底层知识,当业务逻辑比较复杂时,还需要了解离线与实时如何结合使用,对开发人员技术能力要求较高。

  InfoMover实时采集同步,逐个击破采、传痛点,最大化数据价值释放

InfoMover实时采集同步是睿帆科技基于开源CDC组件Debezium之上,自主研发的国产化实时数据采集分布式数据传输工具。

InfoMover提供数据源/目标端配置、数据采集/同步(注:数据采集表示数据流式采集;数据同步表示同构或异构数据库间数据同步)任务管理、实时监控、数据一致性校验、项目用户权限管理和安全审计等功能,具备可扩展、高并发、低延迟、数据库低消耗、高可用、数据重采、对各类数据库兼容性强等特征,适用于金融、保险、通讯、政府、电商等行业实现数据实时采集、数据迁移/流转、数据治理/数据资产管理、数据库辅助备份等目标,助力于打通各个数据孤岛壁垒,实现数据价值最大化。

基于日志的CDC,保障数据一致性和实时性

Change Data Capture(变更数据捕获)的技术方案非常多,目前业界主流的实现机制可以分为两种:一种是基于查询的 CDC(DataX、Sqoop,kettle),即离线调度查询作业批处理。这种实现机制无法保障数据一致性,查的过程中有可能数据已经发生了多次变更;并且不保障实时性,基于离线调度存在天然的延迟。

而InfoMover实时采集同步采用的正是另一种实现机制:基于日志的 CDC,即实时消费日志流处理。这一机制使得InfoMover与传统数据采集工具相比有以下优势:

1.确保捕获所有的数据变更。

2.以极低的延迟生成变更事件,同时避免因为频繁轮询导致CPU 使用率增加。

3.不需要更改数据模型,例如‘Last Updated’ 列。

4.可以捕获删除操作。

5.可以捕获旧记录状态以及其他元数据,例如,事务ID(具体取决于数据库的功能和配置)。

安装方便、操作简单,大幅降低使用门槛

InfoMover安装简单方便,支持Docker构建发布,即开即用;支持滚动升级,在不影响正常任务的条件下可完成组件升级,做到升级无感知。

页面操作简单易用,指引清晰明确,减少用户使用过程的学习成本。采集过程的数据统一存放在Kafka消息集群中,并接受安全管控,并具备再流转到用户指定的二级Kafka消息集群的能力,助力Flink等工具达到实时计算的目标。

数据同步过程,针对数据库对象(如表)的结构做了DDL做明确指引,即提供自动处理也具备提供用户手动执行等指引。

低功耗、高可用、高安全

系统资源消耗低:经基准测试验证,数据采集过程中InfoMover服务1个核2G内存60Mbps带宽最大可以运行20个采集任务。注:具体情况还需根据客户实际环境做相应验证。

高可用:系统由最少三个节点组成,一或两个节点故障,任务自动跳转至正常的节点上;整体服务故障重启后任务自动从上次断点停服开始继续工作,任务具备自愈能力。支持手动任务数据重采,一旦发生不可预知的情况导致任务失效,可以通过一键“数据重采”恢复任务,从任务级别迅速恢复业务。

高安全:系统提供项目用户及鉴权等管理能力;具备对所有操作行为进行安全审计(记录用户信息、各种行为与操作,帮助安全审计人员回顾审查工作中存在的安全漏洞及隐患)能力;数据采集汇总到Kafka集群保存过程提供鉴权机制包括SASL/PLAIN, SASL/SCRAM等,确保数据只开放给下游合法申请人;后台日志做脱敏处理,防止敏感信息外漏。

系统辅助功能齐全:监控涵盖集群组件状态、任务状态、日志管理、数据质量等,帮助运维尽早尽快发现故障和问题。

更强大的兼容能力,支撑更多实际业务场景

目前,InfoMover 2.4版本可以满足多种数据库不限于Oracle(10g/11g/12c/19c/21c)、MySQL(5.7/8.X)、PostgreSQL(9.5.x/9.6.x/10/11/12/13/14)、TiDB(4.0.10)之间的数据同步,满足推送数据至Kafka(2.8/3.X)等消息集群等能力,并在金融资讯部门、通信运营部门数据流转处理等场景中得到实践。

InfoMover,价值不止于桥梁

对于企业而言,InfoMover不仅是数据间流转的稳定可靠“桥梁”,能够为实时计算提供高效高质量的数据支持,助力企业数字化转型,还具备以下两方面的意义:

1.实现数据从传统MPP架构升级到大数据平台、湖仓体系的有利支撑。

近两年来,湖仓一体的概念兴起,企业开始逐步关注数据平台架构问题,更强调通过统一的架构,依托一个一站式的多模型数据平台来解决数据湖、数据仓库多样化的数据分析场景。InfoMover实时采集同步是实现数据从传统MPP架构升级到大数据平台、湖仓体系的有利支撑。

  2.保障数据安全,助力国产化替代。

数据已经从资源化到资产化,到现在进入要素化时代。而数据安全是一项基础保障,InfoMover实时采集同步可以构建另类数据备份、容灾和迁移模式,保障数据安全,助力国产化替代。

典型案例

证券行业数据资源较丰富,并且业务发展中对数据的依赖程度也较高。随着业务发展,证券公司逐步意识到大数据在企业战略中的作用和地位,并在大数据应用领域快速布局。作为未来业务发展的重要技术支撑手段,大数据技术、各应用分析模型和算法等将逐渐走进证券公司各项日常运营活动中,凸显“数据驱动业务”的重要地位。

1653989812240375.jpg

广发证券成立于1991年,是国内首批综合类证券公司,自1994年开始一直稳居全国十大券商行列,是市场上具有较高影响力的证券公司之一。而随着公司业务发展,各部门对实时数据访问及计算的需求日渐增长,如日间客户资产实时查询、客户交易实时提醒、开户流失挽回、反洗钱及异常交易监控等业务场景,均需实时计算能力支持。因此,为了满足Level2行情,委托交易、APP行为埋点等业务的实时分析需求,急需借助实时数据分析技术,及时洞察用户旅程,获取业务经营动态与全貌。

针对广发证券当前现状需求,睿帆科技拟通过建设实时数据平台,基于自主研发的InfoMover为其搭建实时数据采集模块,引入数据实时访问及计算的能力,更好地支持业务发展。实时数据平台建设,以实时数据作业为核心,体系化覆盖数据作业的配置、开发、管控等全流程功能。系统初步分为四个模块,分别是数据实时数据采集模块、实时数仓元数据管理模块、实时作业开发模块、实时作业运维管理模块。

1653989828511863.jpg

此次通过搭建实时数据平台,帮助广发证券全面提高数据敏捷应用开发能力,快速满足对海量数据的实时统计分析需求,使其在数据资产管理、运营管理、客户服务等方面的效率得到快速提升。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )