阿里云云上数据集成提供可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展的数据传输交互服务,能够有效帮助用户解决云环境、个人站点环境下异构数据存储系统的数据互通难题,实现大数据分析和实时商务智能。
一、方案架构
1.离线异构数据源同步
离线(批量)的数据同步主要通过定义数据来源和去向的数据源和数据集,由数据集成提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输的目的。这期间也会涉及到数据源本身所处的网络,针对于各种复杂的网络,数据集成都提供了相应的解决方案,是数据传输不受约束。
功能特点:20+种异构数据源、支持经典和专有等网络环境、支持监控报警、支持多种同步方式。
2.实时数据源同步
实时同步使用阿里自研的实时同步引擎StreamX,分为实时读取、转换、写入三种基础插件,插件之间通过内部定义的中间数据格式进行交互。一个实时同步可以支持多个转换插件进行负责的数据清洗工作,并支持多个写入插件实现多路输出功能。 目前StreamX通过Flink引擎适配层运行于Flink集群上(也可以使用不同的引擎适配层运行在不同执行引擎上),借力Flink高效的流处理能力,提供用户一流的实时同步体验。
功能特点:实时数据同步、支持数据转换和清洗操作、多路输出、支持多引擎适配。
二、方案优势
1.支持多种异构数据源
数据集成提供一套抽象化的数据抽取、写入插件,并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。
2.支持多种同步方式
批量同步主要应用场景为提供离线的批量数据进出通道。增量同步主要是指用户可以通过设置过滤条件和同步周期来实现数据的增量同步。实时同步则是支持消息管道到数据库的实时数据导入。
3.调度、监控告警
数据集成支持多时间维度(天,小时,分钟)的任务定时调度,只需简单几步便可完成配置。当任务出现错误时,数据集成支持通过预定义方式告知用户任务失败。用户可按照自己定义规则配置告警规则。
4.整库迁移
整库迁移是数据集提供的一种批量创建同步任务的快捷工具,可以快速完成把一个数据库(目前支持MySQL和Oracle)内所有表一并上传到 MaxCompute 中,节省大量初始化批量任务创建时间。