从 GreenPlum 到镜舟数据库:杭银消费金融湖仓一体转型实践

发布于:2025-06-07 ⋅ 阅读:(15) ⋅ 点赞:(0)

作者:吴岐诗,杭银消费金融大数据应用开发工程师

本文整理自杭银消费金融大数据应用开发工程师在StarRocks Summit Asia 2024的分享

引言:融合数据湖与数仓的创新之路

在数字金融时代,数据已成为金融机构的核心竞争力。杭银消费金融作为一家持牌消费金融机构,虽以金融业务为核心,却始终保持着强烈的科技创新精神,发明专利的话屈居行业第二。面对业务高速发展带来的数据挑战,公司开始了一场围绕数据基础设施的变革——构建基于镜舟数据库的 GLH 湖仓一体平台。

GLH 代表了公司在湖仓一体化道路上的探索与实践,是连接业务与技术的关键桥梁。

一、GLH 建设背景:数据痛点驱动创新

1. 业务场景需求

作为一家以“数据、场景、风控、技术”为核心的消费金融机构,公司业务发展迅速,但传统数据处理架构已无法满足日益增长的数据需求,这些需求不仅关系到日常运营,更直接影响公司战略决策和合规底线。

• 策略数据实时性:金融风控策略需要准时获取数据支持决策,哪怕几分钟的延迟都可能导致风险控制失效;

• 多表数据一致性:不同库表间数据同步必须保持时间点一致性,一旦出现不一致,可能导致业务逻辑混乱;

• 经营数据准确性:管理层关注的经营日报必须准确及时,这直接影响了公司战略决策走向;

• 业务对账需求:日间数据支持业务对账流程,而传统 ETL 无法满足这一时效性要求;

• 监管合规要求:监管上报数据必须满足时效性和准确性;

2. 核心痛点分析

在传统数据架构下,公司遇到了几个关键问题:

问题 1:数据回溯困难

数据传输过程出现异常,可能造成数据缺失,问题发现不及时,数据回溯成本高。

问题 2:变动明细缺失

监管报送场景下,生产系统中客户信息一天内多次变更则需要报送每次的状态,但生产系统没有保存每次的变更信息,只能靠每日批量获取日终最后一次状态,无法满足监管要求全量报送每次变更的需求

问题 3:时点数据不准

受资源限制,抽取任务执行时点也可能存在偏差或无法执行,导致跨表数据同步存在时间差,同一业务在不同表中的数据状态不一致,造成业务逻辑混乱。

问题 4:跨系统日切问题

以交易对账还款场景为例,交易系统和账务系统等不同系统间对同一交易的处理时间不同,导致日切数据严重不准确,直接影响业务对账。

这些痛点不仅仅是技术困扰,更直接威胁业务发展:无法实时同步数据影响业务策略执行效果;数据不一致导致业务对账困难;数据质量无法保证使监管合规面临风险;数据回溯困难使审计工作耗时且成本高昂。

二、融合镜舟数据库打造湖仓一体架构

1. GLH功能架构

这一架构不仅满足功能需求,更兼顾了系统的稳定性、扩展性和可维护性,为湖仓一体平台奠定了坚实基础。

2. 为什么选择镜舟数据库替代 GreenPlum

在数据仓库选型这一关键决策上,团队经过反复论证和实践测试,最终选择镜舟数据库(StarRocks 企业版)作为核心存储引擎。团队面临的选择并不容易——原有的 26 台生产环境 GreenPlum 集群随着业务量增加,性能日益下降,而扩容意味着高昂的投入:

(1)降本增效:GreenPlum 的授权费用高昂且横向扩展成本高,而镜舟数据库提供了更具性价比的选择,符合公司降本增效的战略需求;

(2)实时写入能力:相比 Hive 等传统大数据工具,镜舟数据库支持实时数据写入和事务查询,在实时数据场景下有着天然优势;

(3)统一数据平台:数据分散在各个系统形成“数据孤岛”,而镜舟数据库作为统一的数据存储与计算平台,能够满足需求。

3. 基于镜舟数据库的湖仓一体架构设计

在新架构中,GLH与镜舟数据库深度融合,共同构建了真正意义上的湖仓一体平台。

• 存算分离设计:底层采用 HDFS 存储(规划未来迁移至 S3),灵活应对数据规模增长,既保证性能又控制成本;

• 多模型表设计:结合 StarRocks 的明细表和宽表能力,设计出支持时间序列、数据回溯等特性的自定义表结构,满足各种业务场景需求;

• 统一数据处理:采用“一次采集、多次加工”的理念,所有数据只需维护单一处理流程,避免重复开发,显著提升了开发效率和数据一致性;

• 灵活数据分发:支持通过 Kafka 向其他系统分发数据,满足 Flink CDC 等场景需求,打造了开放、灵活的数据生态。

三、显著成效:业务性能与成本效益兼顾

在实际部署过程中,团队积累了宝贵的经验:

• 批次时间优化:团队根据业务需求灵活调整数据同步批次时间,有的表需要 5秒同步一次,有的则是几分钟,这种差异化策略既满足了业务需求,又平衡了系统性能;

• 分区分桶调优:分析业务特点,重新设计了分区策略,以减少小文件合并开销,大幅提升了系统性能;

• 资源合理分配:计算节点与存储节点资源配比优化,监控显示,18个CN 节点和FE 节点组成的集群运行稳定,CPU利用率常年保持在50%以下,在下午和凌晨的业务高峰期也能从容应对,确保系统稳定运行;

业务成效

建成后取得了显著成效:

• 全面数据覆盖:已实接入 3,800+ 表,涵盖公司所有业务系统;

• 分钟级同步:从数据产生到可用,实现了分钟级无延迟同步,与传统T+1 模式相比,业务响应速度提升了数十倍;

• 批处理能力提升:支持每日运行 6,500+ 个任务,包括 800+ 个数仓任务,与原有架构相比,处理效率提升显著;

• 业务应用深化:打破了原有只允许批量查询的限制,开放实时查询接口,使业务系统能够直接获取实时数据;

这些成效不仅仅是数字上的提升,更转化为了业务响应速度的提高和客户体验的改善,为公司核心竞争力的提升做出了实质性贡献。

四、未来发展展望

GLH已完成核心功能建设,包括 API 服务、调度引擎、存储接入引擎以及数据管理、节点管理、任务管理等基础功能。未来发展方向包括:

1. 更开放的接口:支持接入更多计算引擎和存储引擎;

2. 丰富的插件生态:开发更多数据处理插件,增强平台数据处理能力;

3. 深化业务融合:进一步与业务系统深度融合,提供更精准的数据服务;

4. 技术持续演进:跟进存储技术发展,规划 S3 对象存储迁移;

结语

基于镜舟数据库构建的 GLH 湖仓一体平台,不仅解决了杭银消费金融在数据管理中面临的关键痛点,还为公司数字化转型提供了坚实的数据基础。通过构建“湖仓一体”的数据架构,公司实现了数据资产的整合与价值释放,为业务创新提供了强有力的数据支撑。