阿里云云上大数据仓库是集数据计算、存储和开发的整体大数据解决方案。提供Serverless大数据服务引领当下主流趋势,减少企业服务器部署压力,显著提升企业工作效率,同时减少了企业在开发和维护方面的成本投入,让企业能更专注于自身业务发展。
一、方案架构
1、离线实时一体化数仓架构
基于云上提供的近乎无限计算和存储资源,结合云原生数据仓库MaxCompute、实时计算Flink版、交互式分析MC-Hologres以及数据开发与治理DataWorks,打造一体化的新一代数据仓库架构,同时满足离线和实时分析需求。
架构特点
- 云原生数据仓库:资源弹性伸缩,计算存储分离。
- 实时离线一体:一份数据同时支持离线ETL+实时分析+在线服务的多种计算能力。
- Serverless服务化:开箱即用、免部署、免运维。
- 高性能/低成本:比现有开源大数据方案降低成本到1/3,计算性能比开源方案快2-3倍。
- 阿里巴巴最佳实践:企业级/金融级服务能力,原生支持高安全性和数据容灾的能力。
- 强数据安全:多层沙箱机制防护与监控,细粒度化授权。
2、实时数仓架构
整合阿里云实时计算Flink版+交互式分析MC-Hologres两大飞天大数据实时计算+分析引擎利器,实现新一代实时分析数据仓库架构。
架构特点
- 批流一体:Batch Layer与Stream Layer代码统一,实时计算智能调优,确保整体逻辑一致性,高吞吐,低延迟,保证Exactly-Once。
- 分析服务一体:大数据实时分析融合计算,同时支持实时OLAP分析与在线数据服务分析能力。
- 全实时数据链路:实时数据与批量数据高速写入导出,全实时数据接入/数据计算/数据存储/数据查询。
- 计算与存储分离:资源弹性伸缩,计算存储分离。支持Scale-Out水平扩展。
二、方案优势
1、离线数仓超大规模计算和数据治理方案
阿里云大数据计算服务针对PB/EB级数据进行分布式的数据加工,并在数据集成、加工、应用过程中提供全链路数据质量监控和保障,同时提供全方位的数据安全管控,字段级权限访问。
2、实时数仓超强的实时计算能力与快速搭建
阿里巴巴双11每秒处理日志数峰值达到25.5亿,全链路延迟在3秒,大幅提升了实时任务的可扩展性、性能、用户易用性、改善了任务延迟的SLA,并能够秒级恢复。