农发行企业级批量数据交换研究与实践

栏目: 数据库 · 发布时间: 4年前

内容简介:作者:中国农业发展银行信息科技部 毛林涛 李小庆 白云岭 杨建华随着银行业的竞争日益激烈,银行业务种类迅猛增加,业务系统及应用系统规模和复杂度也随之增加,银行对数据的分析需求越来越多,系统与系统间的数据交互活动越来越频繁,构建批量数据交换平台以满足日益迫切、频繁的批量数据交换需求成为各家银行的普遍选择。批量数据交换是指通过计算机网络构建的信息交换平台,将分散建设的若干应用信息系统产生的数据进行科学化的集中和整合,建立数据池,完成数据的抽取、集中、加载、展现,构造统一的数据处理、交换、服务通道,提高信息资源的

作者:中国农业发展银行信息科技部 毛林涛 李小庆 白云岭 杨建华

随着银行业的竞争日益激烈,银行业务种类迅猛增加,业务系统及应用系统规模和复杂度也随之增加,银行对数据的分析需求越来越多,系统与系统间的数据交互活动越来越频繁,构建批量数据交换平台以满足日益迫切、频繁的批量数据交换需求成为各家银行的普遍选择。

批量数据交换的概念

批量数据交换是指通过计算机网络构建的信息交换平台,将分散建设的若干应用信息系统产生的数据进行科学化的集中和整合,建立数据池,完成数据的抽取、集中、加载、展现,构造统一的数据处理、交换、服务通道,提高信息资源的利用和共享,降低不同信息系统之间的耦合性。

如图1所示,批量数据交换主要针对准实时的大批量数据在异构应用系统间的数据传输,数据承载实体可包含结构化数据文件(如txt文件)、数据库表、非结构化文件(如图片、影像),满足非事件类业务的数据需求。数据交换最主要的功能是实现异构应用系统之间信息交换,具体包含三个方面:

农发行企业级批量数据交换研究与实践

图1 批量数据交换逻辑图

一是数据集成。能够识别不同的应用系统类型以及数据接口,可以方便地与各类型的数据库、文件等进行集成,实现数据通信及数据交换机制,有效降低各应用系统间的耦合度。 二是信息集成。 解决跨多系统之间信息的有序交换,任意系统之间可以实现主动发送、订阅/发布交换模式,并通过路由控制实现分布式网络中的信息交换。 三是可靠通信。 提供传输可靠性保障,支持断点续传、网络容错,在系统运行出现故障时保障数据可靠;支持数据的准实时、定时,主动、被动等传输模式;支持数据高速传输,适应网络传输速率,提供透明压缩传输等功能。

企业级批量数据交换模式分析

1.源系统结合调度平台批量传输数据服务模式。早期的综合业务系统及其他源系统集成了交易类、分析类、报表类等功能,由于功能较为全面,其他应用类系统构建相对较少,业务功能也相对偏弱,数据传输的必要性和规模处于次要定位。即使消费系统需要源系统数据用于分析,只需通过调度平台完成从源系统到消费系统的数据传输就可以满足应用类系统的数据需求。

在这种模式下,数据采用点对点传输方式,源系统可直接提供数据给消费系统,节省了数据的在途时间,比较适用于核心业务系统大集中的初期,还没有构建统一的企业级数据仓库阶段,下游系统直接取贴源数据进行各自加工。但也具有比较明显的缺陷和不足:

一是上下游系统为紧耦合模式,源系统的网络调整、数据结构变动、业务变化,都会对消费系统产生直接影响,消费系统的维护成本将会提升。 二是如消费系统需要多个源系统数据进行业务处理, 则需要完成数据集中、整合、加工等,增加了消费系统的数据处理开销。 三是如源系统需提供数据至多个消费系统, 不仅需要源系统开发较多的程序用于卸载数据文件,而且在各个消费系统使用同一数据文件的情况下,源系统会产生较多的文件冗余,不仅增加了源系统的开发工作,而且占用了较多的系统资源,增加了系统开销。 四是消费系统各自为战, 从各源系统采集的数据完成加工整合后,只能由本系统使用,无法实现消费系统间信息共享,每个消费系统的加工整合方式也不尽相同,使得数据的共享作用无法发挥,也无法形成完整的、科学的数据体系。

2.统一采集交换平台批量传输数据服务模式。随着银行核心业务系统不断升级换代,普遍支持7×24小时营业,在交易管理层面进行了系统物理架构分离,源系统也由于业务种类的多样化而增加。为了避免业务数据分散带来的不便,各行加强了数据仓库这一全行数据集中平台建设工作,数据仓库起到了数据集中整合、加工分析汇总等作用,也给消费系统提供了更加规范、全面的数据源。为了减少源系统、数据仓库、消费系统通过调度平台传输数据所产生的巨大资源消耗,需要建立数据统一采集交换平台作为中间过渡系统实现承上启下的作用。这种模式采用松耦合架构,通过统一数据采集交换平台(或ETL工具)实现异库数据采集、处理、交换工作。

这种模式优点比较突出: 一是平台形成了采集下发接口规范, 结合了上下游系统的数据共性以及特殊处理,从数据采集、数据传输、数据下发等角度形成了统一规范,使各个系统减少了数据传输多样化而增加的数据处理工作。 二是平台实现了数据的集中采集、集中分发, 改变了上下游系统一对多的数据传输模式,实现了源系统数据的一对多分发,大幅度减少了源系统卸数工作开销。 三是平台结合上下游系统各自特性及数据需求, 建立了统一的任务调度监控,使数据传输更加安全高效。四是平台可根据下游系统的订阅需求,从数据增全量采集下发、数据需求范围、数据时效要求等角度实现数据的定制化下发,减少下游系统一部分数据加工工作。 五是平台可完成各个源系统共性指标的标准化工作, 如机构、币别等,使源系统数据更加规范,便于下游系统统计分析。 六是平台会保留一定周期内的下发数据, 便于上下游系统数据问题排查工作。

但这种模式也存在一些不足: 一是异库增全量采集处理工作, 使平台与源系统的耦合度较高,源系统的变动对平台影响较大。 二是平台采集针对非结构化数据(非结构化文件、影像等)及非源系统数据(第三方数据、补录数据)处理能力较弱, 仅限于传输功能,无法完成统一的整合解析。 三是随着源系统增加, 平台采集处理占用时间较长,会在性能及时效上造成瓶颈。

3.分布式部署批量传输数据服务模式。随着大数据的蓬勃发展,银行的业务创新步伐加快,源系统与消费系统规模不断扩大,数据量级和数据种类也随之增加,数据的使用范围更加广泛,使用方式也更加精细。数据统一采集交换平台已无法满足实际的数据处理需求,需要规划采集和交换从物理上分离的数据交换架构,建立独立的、全面的、可扩展的采集平台,专门用于数据采集工作,后续通过更加完善的交换平台实现数据传输分发工作。实现数据的采集、交换、服务分布式部署:由采集平台完成数据采集,基本的数据处理等工作;然后由交换平台完成下发数据工作;数据服务平台完成面向用户级的数据提供。

这种模式优点更加突出: 一是数据采集平台可以集中资源完成各类内外部数据的采集和初步处理工作, 提高数据采集的时效性。 二是数据采集平台可加强对非结构化数据的规范化采集和处理工作, 提高非结构化数据的可用性。 三是数据采集平台可对第三方数据、补录数据建立与源系统数据的关系, 提高数据的关联性。 四是数据采集平台可提供贴源数据服务、数据定制化服务, 按需采集数据、下发数据,提高数据使用的灵活性。 五是减少了交换平台与源系统的耦合度, 受源系统变动影响较小,简化了交换平台的维护工作。 六是交换平台可根据采集平台采集数据的先后顺序配置交换任务, 构建采集->交换->服务流传输,将交换任务的设计精确到单个数据表或文件,提高整个交换工作的效率。

不足表现在:一是需要进行更规范化、更精细的数据采集传输架构设计,系统构建周期较长。二是占用物理资源(服务器、网络等)较多,增加了硬件开销成本。

随着互联网、大数据的蓬勃发展,银行数据共享的广泛性和集中性要求不断提高,目前第一种源系统结合调度平台批量传输的模式已经被绝大部分银行所淘汰。而且随着客户、业务、数据的多元化,第二种统一采集交换平台批量传输的模式也会逐步过渡到第三种分布式部署批量传输模式,从而使数据批量交换传输作为整个银行IT架构中更加重要、更加实用、更加效率的一部分。

农发行企业级批量数据交换的实践

根据农发行IT整体规划中的数据架构规划,结合各应用系统现状,在新一代核心等上游生产系统和下游数据消费系统(数据仓库、报表平台等)之间,采用统一采集交换平台批量传输数据服务模式,建设新的数据交换平台。新的数据交换平台与农发行企业级批量数据流转架构的关系如图2所示。

农发行企业级批量数据交换研究与实践

图2 农发行新数据交换平台批量传输架构图

①数据交换平台从数据生产系统采集数据,主要有文件采集和DBLINK采集两种模式。②数据交换平台采集数据生产系统数据并下发至数据仓库。③数据交换平台交换数据至数据集市, 主要分为三种供数情况:一是贴源数据直接供给数据集市;二是数据集市加工后数据回流数据仓库;三是数据集市间的数据交换。 ④数据仓库加工后数据回流至数据交换平台, 数据仓库数据有以下两种供数情况:一是数据仓库卸载数据文件通过数据交换平台供给数据集市;二是数据仓库卸载数据文件通过数据交换平台供给数据生产系统、大数据平台、省行平台等。 ⑤通过集中调度平台实现数据集市、数据展示层与数据仓库之间的数据流转,无需数据交换平台参与。⑥数据交换平台将获取的数据生产系统数据或数据仓库、报表平台等加工后的数据,传输给省行平台。⑦数据生产系统间批量数据交换。⑧数据交换平台直接采集数据生产系统数据并下发大数据平台。

农发行目前所构建的数据交换平台具有如下特点:

一是数据通用性。支持目前常用的数据库表采集、文件采集、表格采集,支持数据库之间、文本之间、以及不同类型之间进行数据交换等场景。 二是高扩展性。 平台提供了丰富的脚本组件、转换组件、清洗组件、存储过程组件、系统命令组件,并内置了多种函数库,提供跨数据库类型和版本的算法兼容性,同时支持自定义,保证了平台 工具 的扩展性。 三是高可用性。 支持作业并行和数据并行装载技术来保证数据采集、传输和分发的高效性,平台内置设计区和运行区,两个资源库相互隔离,所有作业的修订和更改通过在设计区完成调试和试运行后,通过发布机制发布到稳定的运行区,减少系统变更及投产风险。 四是安全性。 采用加密传输机制,内置大量的数据脱敏算法,支持对系统和数据的操作行为审计,保证数据的安全性。

随着业务的增加及数据的多元化,农发行数据交换平台后续将逐步向第三种分布式部署批量传输数据服务模式过渡,以满足多元化的数据采集、更加灵活的数据传输和更加便捷的数据服务需要。笔者建议后续的优化路径如下:

一是将数据采集功能形成独立平台。建立物理架构及功能独立的采集平台,融合当前数据采集、抓取、解析等先进技术,形成更加合理完善、稳定高效的系统架构设计,支持结构化数据、非结构化数据、第三方机构数据、互联网数据等多元化数据采集。 二是拓宽数据交换平台应用场景和效能。 进一步增强准实时数据及特定时点传输的时效性,结合数据解析计算,形成完备的非结构化数据的传输方案,从整体上提升数据交换平台在时间、空间、性能上的交换传输能力。 三是优化面向业务人员的数据服务平台。 对现有数据服务平台进一步优化,形成支持基础报表、可视化分析、智能决策分析的数据产品体系,支持数据的灵活加工,实现业务人员的临时性数据查询、贴源数据查询、基础数据分析、自主数据分析和管理决策数据分析,从数据层面便捷、高效地满足农发行业务经营管理和高质量发展的需要。

本文节选自《金融电子化》2019年06月刊

声明:本文来自金融电子化,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

枕边算法书

枕边算法书

[韩] 林栢濬 / 崔盛一 / 人民邮电出版社 / 2018-3 / 45.00元

本书第1章重点讲解各种常见算法,第2章主要介绍几种相对少见的算法,第3章和第4章探究其他程序员编写的代码,从中总结优秀算法应具备的特点,以及高级程序员应当持有的态度和必须培养的能力。书中以日常对话般浅显的叙述方式,帮助专业开发人员、刚刚踏入软件开发和编程门槛的初学者体会程序设计的创造性和成就感。一起来看看 《枕边算法书》 这本书的介绍吧!

html转js在线工具
html转js在线工具

html转js在线工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具