大数据交换平台系统

一、背景概述

随着企业IT建设的快速发展,企业内部系统越来越多,数据分布也越来越分散。为了实现对各系统大数据传输过程的高效、可靠、可监控,以及对整个传输过程中的可管理,公司研发设计了一个通用的大数据交换传输平台,把原本各个系统之间直接的数据交互抽取出来,通过底层统一的传输平台来具体完成传输过程,从而将底层的传输问题和具体的业务处理过程分离开,形成系统的松耦合分层架构,从而实现对系统资源的可复用,以及业务系统的良好扩展性。

大数据交换平台作为公共基础架构的一个基础技术平台。旨在提高大量数据传输的管理水平,加强文件传输可靠性、安全性和高效性,并对文件传输提供有效的监控和管理,降低系统与传输产品之间整合的复杂度,最终实现生产业务系统间的文件传输。

大数据交换平台提供集中方式的易用的管理界面,能够方便地通过中心管理服务器,管理各个分散的数据传输节点,包括各应用系统之间的批量数据交换任务,并且能够查询到单个文件的传输状态,能够概括展示平台自身的运行状态。数据平台,强化数据量存储和分析能力。解决好上游数据的汇聚和分发,数据平台将具备实时分析和预测的能力。通过大数据交换平台向下游提供统一、规范、安全、可靠的数据服务,与业务深入结合,数据平台会催生业务创新。

二、系统架构

       

        数据操作模块:主要实现将批量数据从源端经过抽取、转换、加载至目标端的功能,主要提供系统间基于文件的交换功能以及数据库间的数据交换功能。系统支持对oraclemysqldb2等主流数据以及excel等常见文件的数据抽取,在交换过程中可以对数据进行合并、拆分、转换、筛选、过滤等处理。批量总线子系统可以单机部署,为局域网第三方应用系统提供批量数据交换服务,也可以随平台进行分布式部署,交换节点部署于企业多个上下级部门,贯穿组网形成通信网络,为企业提供横纵向批量数据交换服务.

        数据存储模块:实现了基于oracle数据库日志解析的低延迟、非侵入式同步复制功能,当源库发生变化时系统将通过解析数据库日志(而不是访问数据库,对源数据库性能影响小)识别变化并将变化同步到目标库,从而实现oracle数据库的秒级同步复制。系统保证数据的事务性,支持全量、增量同步方式,主要用于灾难情况下的数据库准实时备份、高压力情况下数据库的读写分离/负载均衡、以及数据共享数据分析的数据同步。系统源端支持oracle数据库,目标端支持oraclemysqldb2等常见数据库。

        消息管理模块:实现了面向消息型数据交换的中间件,用于在应用程序之间或分布式系统中互发消息,支持高效异步通信。作为企业级高性能数据集成总线,通信应用不需要知道彼此物理位置使得应用集成实现松耦合,不需要知道彼此间怎样建立通信从而简化应用底层通信复杂度,不需要同时处于运行状态由总线保障消息的可靠到达,不需要在同样的操作系统或网络环境下运行实现跨平台跨系统通信。系统支持一对一、一对多、请求应答三种通信模式,提供了javac/c++等常见编程语言的API。系统节点可以单机部署,也可以分布式多级部门部署并组网形成横纵向数据交换网络。

        服务集成模块:服务集成模块可以作为企业网络中最基本的连接中枢,是构筑企业神经系统、提高企业服务重用性的必要元素。基于SOA思想,实现对企业接口服务的协议转换、注册/发布、编排、管理、标准化,帮助企业对繁杂的应用服务接口进行标准化与重用、分类管理、集成共享。采用“总线”模式管理和简化应用之间的集成拓扑结构,以广为接受的开放标准为基础来支持应用之间在事件和服务级别上动态的互连互通,是一种在松散耦合的服务和应用之间标准的集成方式。系统可以单套部署,也可以在企业上下级进行跨地域分布式组网部署,互联互通。

        管理与监控控制台:主要实现了对交换平台各子系统的远程运行数据采集、运行状态分析、图形化展示、报表生成、异常告警等功能,能够直观的展现平台各子系统的运行状况、业务系统交换关系、交换数据量等,为企业针对数据交换、服务集成、数据库同步复制提供了统一的监测管理实现。

三、主要功能

 大数据交换平台主要包括以下功能:数据采集、数据传输、数据转换、数据发布、数据订阅、数据存储、系统管理等功能。

        数据采集大数据交换平台从关系型数据库、应用日志文件、Web服务、文件服务器等多种数据源采集数据进行汇聚

        数据转换根据实际需要对采集获得的数据进行加工转换,实现数据的规范化和标准化,提高数据质量;提供对数据的字段进行清洗、解析、转换、填充的编程接口;支持用户根据业务需求对业务处理规则进行数据转换的定义和修改;转换后的数据可以直接下发给下游系统,也可以经由查询服务接口而被下游系统查询获取。

        数据存储:大数据交换平台使用可以将消息持久化的消息队列,以保证数据的可靠性;数据在消息队列中过期后,由大数据交换平台存放在适合的临时存储,缓存一段时间,根据实现情况需要临时存储可选择对象存储、NAS存储、分布式文件系统等;达到消息队列和临时存储过期时间后,大数据交换平台负责数据的清除;

        发布和订阅数据服务发布大数据交换平台按照数据类型、业务主题等因素合理对采集到的数据进行分类,在消息队列中建立适合的主题;数据服务订阅数据消费方可以订阅数据变化事件,并且可以按照业务类型、机构标识进行过滤;数据消费方可以配置数据变化事件发生后的处理行为;消费方可通过查询大数据交换平台的元数据跟踪表,了解元数据的变更情况;数据订阅配置化:提供数据订阅页面。通过选择数据源、数据源中的字段、输出形式,得到生成下发数据的样例报文;数据传输可通过消息队列向消费系统的服务器实时和批量推送数据;通过接口推送的数据根据需要对数据内容进行加密,订阅方自行对加密内容进行解密。接收方无法正常接收时,发送方进行重发尝试,可配置重发次数及重发间隔时间;在文件传输的过程中,允许用户以动态库的形式嵌入自己对文件的处理,如发送前的文件内容检查,接收后的复审等。

        数据管理大数据交换平台对源系统的数据进行缓存,需对缓存数据进行生命周期的管理;大数据交换平台系统按照数据的业务含义记录和管理数据的存放地址、访问方法、数据有效期、关联数据位置以及上述信息的变化情况;对流经平台的数据应自动发现和记录上述信息;消费方可通过大数据交换平台获取历史数据,根据数据保存策略进行路由判断,选择最优的数据源。

        作业管理对用户定义的作业进行界面配置化的作业定义,可分别对数据转换作业和数据分发作业进行管理。主要功能包括:作业流定义、作业调度、作业运行状态监控、作业过程干预。

四、优势特点            

        安全性

        严格控制数据交换过程中的安全,保障生产数据、中间数据、交换数据安全无泄漏。所有实时数据平台管理操作要有审计信息记录,数据库密码等信息需经过加密,不能以明文形式保存到数据库或者配置文件。

        高可用要求

        系统需满足高可用性要求,不存在单点故障。在分布式系统上实现的消息队列具备高可靠性、容量无限制、高并发性的特点。不会因为某台消息服务器的故障导致数据的丢失情况。

        高响应性

        单笔实时同步秒级响应。对本系统的吞吐量要求不低于2000TPS,并可以按需要通过增加服务节点来达到线性增长。

        可扩展性

        本系统能够随着用户业务量的增长动态地扩展系统的处理能力,硬件上包括硬盘容量、内存大小;软件上包括用户数、用户响应时间等。采用先进的技术保证系统的处理能力随着业务量的线性增长而线性扩展,无需超量扩展。

 



上一篇: