吴炳锡:AI 时代下的湖仓一体化平台建设的思考

发布于:2025-08-29 ⋅ 阅读:(13) ⋅ 点赞:(0)

随着企业数字化转型的深入推进,实时数据仓库与湖仓一体化架构已成为现代数据平台建设的核心议题。在业务节奏日益加快的今天,企业不仅需要处理海量的历史数据,更需要实时洞察数据变化,快速响应市场需求。如何在保证数据一致性和可靠性的前提下,实现数据湖的灵活性与数据仓库的高性能完美融合,成为每一位数据架构师面临的重大挑战。

在第 16 届中国数据库技术大会(DTCC2025)的「实时数仓与湖仓一体应用实践(上)」专场中,Databend 联合创始人吴炳锡带来了主题为《AI 时代下的湖仓一体化平台建设的思考》的深度分享。

本文基于演讲内容整理而成,不仅回顾了从传统数据库到现代湖仓一体化架构的技术演进历程,更重要的是提出了面向AI时代的数据平台建设新思路。通过对传统架构痛点的深入剖析,以及对 Databend 创新解决方案的详细阐述,将看到存算分离、云原生架构如何为企业数据处理带来革命性的变化。

传统大数据架构和 OLAP 结合的挑战

发展至今,大数据架构经历了 4 次大的迭代,每个阶段都代表着技术架构的重大突破和应用场景的显著扩展。

第一代技术以 Oracle、DB2、Sybase 等为代表,建立了数仓理念的基础框架,采用单机或主备数据库架构。这一阶段奠定了关系型数据库的理论基础,但在处理大规模数据时面临明显的性能瓶颈;

第二代技术的核心突破在于引入了 MPP(大规模并行处理)架构,以 2003 年的 Greenplum 和 2005 年的 Vertica 为标志性产品。这种架构通过多节点并行化调度,实现了节点间存储和计算资源的自耦合运算,显著提升了数据处理能力;

第三代技术迎来了大数据时代的全面爆发。从 2003-2006 年谷歌发表的三大论文开始,到 2008 年 Hadoop/Hive 的普及,再到近年来 Presto、Impala、Hudi、Iceberg、DeltaLake 等技术的不断涌现,最终形成了"湖仓一体"的架构理念。这一阶段以 HDFS 分布式存储为基础,结合 MapReduce、Spark、Flink 等计算框架,构建了松散耦合的系统套件组合。这个阶段实际上只能处理结构化和半结构化数据,不支持对非结构化数据的处理;

 ****3.5 ****代技术代表了架构优化的重要节点,以 ClickHouse、Doris、Starrocks 为代表,通过升级现代化 MPP 架构,引入向量化执行、负载均衡、预聚合等技术,实现了大数据格式的全面兼容;

第四代技术标志着云原生时代的到来,Snowflake 和 Databend 等产品充分利用云平台的基础设施能力,实现了弹性计算、存储分离、网络安全管理等功能的深度整合,可以处理、计算结构化、半结构化、非结构化,以及时空类数据等多模态的数据。

第三代湖仓架构往往包含四五十个组件,系统维护极其繁琐。当单个硬盘出现故障时,运维人员需要执行一系列复杂操作:从配置文件中移除故障硬盘、重启系统、更换硬盘、重新配置并加入新硬盘。由于硬盘故障频繁发生,这种运维工作几乎每天都在重复,严重影响了系统稳定性和运维效率。

数据管理层面的问题同样严重。表分区过多会导致 MetaData 存储的 CPU 使用率直接飙升至 100%,小文件数量激增使得文件扫描效率极低,甚至连基本的count 查询都无法正常执行。这些技术问题直接影响了系统的可用性和查询性能。

在这种复杂架构下,大数据团队的工作状态令人担忧。团队成员经常需要加班处理数据搬运和核对工作,甚至被戏称为"大数据搬运工"。为了应对各种复杂的架构挑战,行业内发明了许多具有中国特色的概念,如数据中台、指标平台等,但这些概念往往增加了系统的复杂性而非简化问题。

面对这些挑战,企业用户迫切需要一个支持存算分离、无状态计算、流批一体且架构简单易用的解决方案。理想的产品应该具备几个核心特性:

  • 事务支持( ACID  是基础要求。许多大数据产品忽视了事务问题,容易造成数据丢失,这在生产环境中是不可接受的风险。
  • 时间旅行(Time Travel) 功能具有重要的实用价值。这项功能允许用户随时查询历史数据,对比不同时间点的数据差异,甚至直接查询特定历史时刻的数据状态。更重要的是,当用户误删数据时,只需一个命令就能完成数据恢复,这在国内项目中堪称救命技能。
  • 并发读写能力是现代数据系统的必备特性。传统大数据产品往往缺乏并发读写支持,也不考虑更新操作。而现代解决方案需要支持 merge into、update 等复杂语法,满足实际业务的多样化需求。
  • 独立于存储的消费模式对成本控制至关重要。在云环境中,存储往往是大数据系统最昂贵的部分。许多企业的数据规模达到 PB 级别,如果按照峰值容量建设存储基础设施,成本将极其高昂。以生物制药公司为例,DNA 数据分析过程中单次可能产生 PB 级数据,但分析周期仅为 3-6 个月,之后数据就会被清理或归档。通过云上对象存储的按需付费模式,企业可以根据实际使用量付费,而非按照峰值存储容量建设,从而显著降低总体拥有成本。

传统大数据架构在实际应用中面临六个经典问题,这些问题在传统技术框架下往往缺乏有效的解决方案:

  1. 服务异常海量日志导致平台雪崩。在接入应用日志的大数据场景中,当应用系统出现异常时会产生大量日志数据,严重情况下会导致 Kafka 消息队列以及后端存储系统发生雪崩。传统处理方式只能是编写故障报告、将服务降级、实施限流措施或采用异步处理机制,这些都是被动的应急措施而非根本性解决方案。
  2. 数据平台内表级 ****CDC ****能力。当数据进入大数据平台后,如何快速推送到 Redis、MongoDB 或 MySQL 等服务集群对外提供服务,以及如何在这个过程中快速完成增量计算,都是亟待解决的问题。传统大数据产品通常采用添加时间戳的方式处理,但这又引发了新的问题:如何保证时间戳的事务一致性。
  3. 数据汇聚平台的数据收集去重。在数据汇聚平台中,当来自 A、B、C 等多个数据源推送数据时,如果某个数据源出现重复推送,如何进行有效去重以保证平台数据的唯一性,以及如何在平台建设过程中提升数据质量,都是关键挑战。
  4. 湖和仓的数据同步共享。许多公司习惯先建设数据湖,然后将数据抽取到数据仓库中,在湖上建仓,这就涉及数据核对问题。曾经出现过一个极端案例:百亿级数据表需要一整天时间才能完成核对,一个包含 120 亿数据的表在向数据平台传输时出现错误,只能重新传输并进行去重处理,结果耗费了整整一周时间。面对超大规模数据场景,比如单个数据库包含 100 万张表的情况,传统方案显得力不从心。
  5. AI ****时代的海量数据处理。在高频交易场景中,机器与机器之间每天的交易数据量可能达到 100TB 规模。如果需要对这 100TB 数据进行复盘分析并存储,传统架构需要构建规模庞大的平台基础设施,成本和复杂度都极其高昂。
  6. 数据平台 高可用性。证券公司和金融机构对高可用性要求极其严格,通常需要实现两地三中心互备方案。以 Greenplum 为例,如果用于支撑证券系统,通常需要在两个不同地点部署两套完整的 Greenplum 系统,这种方案的成本相当高昂,对许多企业来说难以承受。

存算分离湖仓建设

幸运的是,云原生时代的到来为这些传统难题提供了新的解决思路。基于 Databend 的存算分离架构,上述六个问题都有了更加优雅和经济的解决方案,这标志着大数据架构正在向更加简化、高效和成本可控的方向发展:

服务异常海量日志产生造成平台雪崩

传统架构中,数据收集链路通常采用 Flume 或 Vector 进行数据采集,然后传输到 Kafka 消息队列,最终通过 Sink 组件导入数据仓库。这种架构存在明显的脆弱性:当 Kafka 面临过大压力时会发生崩溃,Sink 组件出现问题同样会导致整个链路中断。

Databend 通过存算分离架构提供了更加稳定的解决方案。数据可以直接写入对象存储,而对象存储基本没有带宽限制,可以视为具备无限扩展能力。这种设计使得系统能够完全省略 Kafka 这一潜在的故障点,通过订阅对象存储Bucket 的增量事件,基于 COPY INTO 方式将数据直接加载到 Databend 内部。

这一机制还具备智能的文件管理能力。数据加载成功后,系统会自动删除已处理的文件,避免重复加载问题。同时,在特定时间窗口内,Databend 还能保证操作的幂等性,进一步提升了系统的可靠性。

在性能表现方面,Databend 展现出卓越的数据处理能力。在 128 核机器配置下,系统可以实现每秒约 700 万条数据的加载速度。即使在较小的机器配置环境中,每秒也能达到几十万到上百万条数据的加载能力。这种高性能表现意味着在很多应用场景中,单台机器就能满足用户的数据写入需求,大大简化了系统架构的复杂度。

数据平台内表级 CDC 能力

数据平台内表级 CDC 能力是 Databend 的核心优势功能之一,它将内部流计算等多种功能进行了有机整合。通过创建 Stream 对象,系统能够精确捕获表的所有增量变化,包括 Insert、Update、Delete 等各种数据操作。

Stream 机制的设计极其高效,它相当于为表建立了一个专门的任务来记录增量变化。这种设计的突出优势在于不占用任何额外的存储空间,同时没有数量限制,用户可以根据不同的业务需求创建多个 Stream 来处理不同的任务场景。

这种表级 CDC 能力为企业提供了灵活的数据同步和处理方案,能够实时捕获数据变化并支持多种下游应用场景,大大简化了传统架构中复杂的数据同步流程。

数据汇聚平台数据收集去重

数据汇聚平台承担着数据汇聚、清洗整合、数据融合、数据输出和数据服务等多重职能,其中最核心的挑战是实现有效的数据去重和数据质量加工。传统架构通常依赖 Flink 实现窗口计算,在接收到数据后通过特定时间窗口进行计算处理,然后将结果写入下游目标系统。

Databend 通过 Stream 机制提供了更加简洁的解决方案。用户可以基于 Stream 直接通过 SQL 语句获取最后一条记录,从而实现数据去重功能,这种方式大大简化了传统的复杂处理流程。

结合 CDC 同步技术,Databend 的数据汇聚平台为传统数据同步难题提供了革命性的解决方案。过去,将 MySQL 数据同步到目标数据源往往需要面对复杂的 ETL 流程和高昂的维护成本。通过 Databend 的 NoETL 架构,整个处理流程实现了根本性简化。

具体实现路径包括四个关键步骤:

  • 首先是数据捕获阶段,将 MySQL 的 Binlog 解析为 JSON 格式并直接导入对象存储;
  • 其次是流式处理阶段,利用 Databend 的 Stream 功能获取 ODS 增量数据;
  • 第三是智能去重阶段,基于 Stream 实现增量数据的自动去重处理;
  • 最后是批量合并阶段,通过 MERGE INTO 语句实现高效的批量合并操作。

这种创新方案不仅大幅简化了数据同步流程,更重要的是能够直接生成 DWD(Data Warehouse Detail)层表,为企业构建现代化数据仓库提供了高效可靠的技术路径。通过这一站式的数据处理方案,企业能够真正实现从源表到数据仓库的无缝衔接,显著降低了数据处理的复杂度和维护成本。

整合 AI 能力处理非结构化对象

Databend 在今年推出了 Vector 数据类型,实现了近似度检索功能,为多模态计算提供了强有力的支持。这一技术创新在游戏推荐系统中展现出了显著的应用价值。传统的游戏推荐机制往往依赖复杂的算法和状态管理来决定如何为玩家匹配队友,或者如何设计游戏策略来提升用户粘性。而现在,通过将用户行为直接向量化并进行相似度匹配,系统能够智能地推荐风格相似或相反的好友,从而创造更具刺激性和娱乐性的游戏体验。

在知识库搜索领域,Databend 同样实现了重要突破。传统的文本检索方案通常采用 Elasticsearch 进行全文检索,或者通过 RAG 方式处理文本类查询。然而,企业实际应用中大量存在 PDF、Word 等非结构化文档,特别是在法律法规和合同检索场景中。针对这一挑战,Databend 提供了一套完整的解决方案:首先将 Word、PDF 文档存储到对象存储的指定 Bucket 中,系统会自动检测新增文件,并将文件路径和合同名称等元数据存储到 Databend 数据库中。随后,系统会读取文件内容并进行 Embedding 处理,形成内容和 Embedding 两个存储维度。

在检索阶段,用户可以同时利用全文检索和 Embedding 检索两种方式,显著提升检索准确度。更为重要的是,这两种检索方式都可以通过单条 SQL 语句直接处理,极大地简化了操作复杂度。当SQL 查询同时包含向量索引和普通字段类型时,系统会基于成本优化原则自动选择最优的索引策略。

Remote UDF 功能是 Databend 在 AI 集成方面的另一项重要创新。这一功能允许用户将数据库内部难以用 SQL 表达的复杂计算逻辑外置化处理。具体实现方式是在外部创建函数并通过 HTTP 方法共享,然后通过 Nginx 作为代理挂载后端的 UDF 服务器集群。用户可以通过 CREATE OR REPLACE FUNCTION 语句注册外部函数,实现复杂的近似度检索和相关计算。

在云环境部署中,许多用户选择将 UDF 功能部署到 Lambda 服务中,实现按需弹性扩展。系统采用批处理机制,每次向 UDF 服务器传输 100 条数据,当处理大量数据时,可以通过增加后端 UDF 服务器数量来保证处理性能。

这种架构设计不仅支持游戏匹配等复杂业务逻辑,还能够将处理结果直接写入 Redis、MongoDB 等外部存储系统,为前端展示提供数据支持。用户只需在 SELECT 语句中调用 UDF 服务器,将需要处理的内容传递给 UDF 服务器,后者可以根据业务需求执行相应的操作。这种设计本质上是利用 Python 和 UDF 服务器将外部生态系统与 Databend 无缝集成,为用户提供了极大的扩展灵活性。

湖和仓的数据同步/共享

Databend 通过存算分离架构实现了真正意义上的湖仓一体化数据同步与共享。在这一架构下,元数据保持独立统一,支持 Multi Warehouse 模式,允许同一集群下不同服务划分为独立集群,甚至可以在不同集群间挂载多个同类集群以提升并发处理能力。

这种设计使得单份数据能够同时服务于数据接入、数据治理、数据挖掘和对外服务等多个业务场景,彻底消除了数据搬迁的需求。每个数据科学家都可以使用独立的计算资源,实现真正的按需付费。在云环境中,用户可以根据需要创建 Warehouse,不使用时系统会在五分钟内自动关闭,甚至可以设置为一分钟自动关闭,从而将成本控制在极低水平。

实际应用效果令人印象深刻。许多 50 人左右的中小型企业大数据团队在云平台上的月度花费不到2 万元,而招聘一名熟悉 Flink 的工程师的月薪就可能达到 4 万元。在集群配置方面,数据治理服务集群通常配置几十台机器,最大规模可达上千个核心,甚至两三千个核心的集群配置。

在对外服务场景中,Databend 展现了突出的实用价值。以福建省民事办事大厅和 e 福州项目为例,用户只需刷身份证,相关资料就能立即显示,这一服务直接由 Databend 提供支持。通过 Multi Warehouse 架构,单个服务集群下挂载十台机器,每台机器作为独立集群运行,彼此间无任何耦合,专门处理基于身份证的简单查询。目前查询响应时间稳定在 100 到 300 毫秒之间,虽然相比传统 OLTP 系统略慢,但单台机器能够承载 200 到 300 的并发量,十台机器足以支撑全省 1500 到 2000 的并发需求。

在跨部门数据交换场景中,Databend 解决了传统架构的核心痛点。过去,不同部门出于风险考虑往往建设独立集群,部门间数据交换需要通过大量 DTS 和数据传输工具实现。某个项目每天的数据传输任务高达 30 万到 40 万个,仅数据调度就需要 40 台机器。更严重的是,数据传输错误频发,大数据人员需要频繁加班重传数据。

在证券行业等对时效性要求极高的场景中,传统方案面临更大挑战。由于生产环境在早上 8 点到下午 4 点间不允许变更,如何保证数据实时可见成为关键问题。Databend 的存算分离架构提供了优雅的解决方案:A 部门将数据写入自己的存储桶后,可以通过一条命令将数据注册到 B 部门,B 部门看到的表如同本地表一样,可以进行联邦查询和关联查询,实现数据的实时可见性。

政府行业的应用案例更加典型。人口库数据中,每个字段分别隶属于不同部门:出生死亡归公安厅,结婚归民政厅,教育学历归教育局,住址归社区管理。传统做法是各部门相互推送数据并各自合并,导致数据不一致问题频发。更严重的是,在省级汇聚模式下,单个人口户数据在每个省就达到 300TB 甚至 1PB 的存储规模。

通过 Databend 的数据共享机制,省级政府平台实现了一份数据直接向不同厅局共享,将存储需求降低到 100TB,消除了复杂的数据传输流程,同时取消了数十万个同步任务和数十台管理机器,甚至不再需要专门的数据核对团队。

在数据推送方面,Databend 同样提供了创新解决方案。传统的批量抽取方式存在批次过大无法处理或按时间抽取可能丢失数据的问题。现在推荐使用 Stream 方式进行订阅,创建 Stream 后可以直接访问数据并自动移动指针,减少数据处理复杂度。对于需要快速导出的场景,可以直接将数据 UNLOAD 到对象存储的指定位置,支持 Parquet、CSV、JSON 等多种格式,便于大数据和 AI 团队直接访问。这种方案特别受到机器学习团队的青睐,他们可以直接要求将整理好的数据 UNLOAD 到指定位置的 Parquet 格式文件中,实现无缝对接。

数据平台高可用

 在高可用架构设计方面,Databend 充分利用了对象存储的天然优势。对象存储本身具备极高的可靠性保障,海外通常达到十三个九的可用性,国内也能达到十一个九的标准。在合规性要求方面,传统的两地三中心容灾方案以及数据迁移备份在某些行业的实施成本往往超出预期。

基于 Databend 构建两地三中心架构的过程相对简化。由于数据本身存储在对象存储上,实现异地备份只需在目标复制地点部署对象存储副本即可。对象存储支持直接复制到远程位置,确保远程数据保持完整性。当主站点出现故障时,可以直接在备用站点拉起服务,远程数据能够立即投入使用,无需额外的数据恢复过程。

在元数据服务层面,Databend 同样实现了异地容灾能力,支持在异地环境中直接部署元数据服务副本。更进一步的技术发展方向是将元数据的持久化存储也迁移到对象存储上。目前元数据持久化仍然依赖本地 SSD 存储,未来计划将其完全迁移到对象存储平台,从而实现更加简单易用的架构设计。

这一技术演进路径的最终愿景是实现元数据在对象存储中的完全持久化,这将进一步简化整体架构的复杂度,提升系统的可维护性和扩展性,同时降低对本地存储硬件的依赖程度。

存算分离湖仓建设成效

Databend 作为一家成立仅四年半的新兴公司,在湖仓建设方面已经取得了令人瞩目的成效。2023 年,一个重要客户的数据规模让团队深感震撼。这个客户使用 40 台机器构建集群,虽然相比动辄几百台机器的大数据集群看似规模不大,但当客户展示实际数据量时,结果令人惊叹:2.6 万亿条记录,未压缩前达到 7PB 的数据规模,压缩后只有 1PB。

这个客户最初使用社区版本运行了一年多时间,主要用于机器学习数据的回归训练,后来转为商业用户。原本存储在对象存储上的数据每月成本高达数百万美金,通过 Databend 的数据压缩技术,成本降低到原来的三分之一。

在数据归档场景中,Databend 展现出显著的成本优势。多点等客户反馈,从 TiDB 归档到 Databend 的成本效益极其显著,因为对象存储的成本比本地磁盘便宜十分之一,再加上 20 到 30 倍的数据压缩比,整体成本控制效果非常理想。

性能提升方面同样表现出色。在与茄子快传的合作中,Databend 帮助客户实现了 2 到 5 倍的性能提升。在Elasticsearch 替换场景中,Databend 采取了务实的定位策略,明确告知用户如果需要 10 毫秒以内的响应时间,建议继续使用 ES,但如果能接受 1 秒的查询返回时间,Databend 能够以 1:10 的成本比例实现 ES 的替换,这种诚实的产品定位赢得了众多用户的信任。

Databend 的商业模式体现了开源产品的独特优势:拥有大量开源用户持续使用和打磨产品,这些用户在验证产品稳定性和功能完整性后,自然转化为商业客户,形成了良性的用户生态循环。

基于 Databend 建设的收益

基于 Databend 建设的收益主要体现在简化运维、提升开发效率和降低成本等多个维度。

在易用性方面,Databend 采用标准 SQL 操作,避免了大数据行业中常见的产品选择不当或使用不当导致的业务场景匹配问题。整个技术栈统一使用 SQL 进行访问和操作,凡是 SQL 表能够表达的功能都能实现。目前 SQL 功能的丰富度已经对标 Snowflake,如果用户已经使用过 Snowflake,现有产品基本无需改动即可直接迁移使用。

运维效率的提升尤为显著。Databend 仅包含两个进程,这在政府和证券行业产生了革命性的影响。传统架构下,这些行业的系统升级通常需要安排在周六进行,耗费整天时间。而使用 Databend 后,升级过程在下班后 5 分钟内即可完成:关闭一个进程,启动升级进程,验证版本号,运行几个 SQL 验证功能正常即可结束。如果出现问题,回退操作同样简单,只需重启一个进程即可。

技术架构的稳定性得益于 Rust 语言的特性。相比过去使用 C++ 开发时经常遇到的段错误问题,这些问题往往需要花费一个月甚至两三周时间才能定位,Rust 架构下基本消除了此类问题,显著提升了开发团队的幸福度。目前所有问题都能在当天定位解决,这种稳定性为产品运维带来了质的飞跃。

性能表现方面,基于 Rust 开发的 Databend 与 C++ 产品相比毫不逊色,甚至在某些场景下表现更优。特别是在 ARM 架构兼容性上表现出色,在海外平台如亚马逊云上,ARM 版本的性能比 Intel 版本更好且成本更低。用户可以直接使用 ARM 版本进行编译测试,验证这一优势。

在高可用架构方面,Databend 实现了真正的存算分离和原生跨机房、跨可用区的高可用能力。在云环境中实现跨可用区高可用更加简便,只需创建支持多可用区复制的 S3 存储,成本仅增加约 15%,就能获得完整的高可用解决方案,成本控制效果显著。

基于 Databend 的成功用户&场景

Databend 在四年发展历程中获得了众多勇敢企业的陪伴和支持。这些客户不仅为产品发展提供了宝贵的实践机会,更在产品优化方向上给出了重要建议。

海外回归中国的企业构成了重要的用户群体。这些企业原本使用 Snowflake 产品,在回归过程中需要寻找替代方案,但又不希望进行大幅度的技术架构调整。Databend 凭借与 Snowflake 的高度兼容性,成功承接了包括世界五百强在内的大型企业客户,这些标杆客户不仅验证了产品的可靠性,更为产品改进提供了宝贵的实践反馈。

政府和金融行业的应用案例同样令人瞩目。福建大数据交易所选择 Databend 作为省级平台的核心组件,直接替换了传统大数据产品,这一应用验证了产品在大规模政务数据处理场景中的可靠性。中信银行在票据结算和营销平台建设中采用 Databend,通过数据归档整合和服务简化,为 AI 探索奠定了坚实的数据基础。

在互联网和游戏行业,Databend 同样表现出色。沉浸式翻译、茄子快传等知名企业选择 Databend 作为数据处理平台,这些合作不仅扩展了产品的应用边界,更通过实际业务场景的打磨,持续提升了产品的稳定性和性能表现。

在国内市场的特殊应用场景中,Databend 针对数据安全和合规要求提供了创新的解决方案。与 Snowflake 要求将数据存储在其平台上的模式不同,国内用户普遍无法接受数据外流的方案。经过与众多用户的深入沟通,Databend 形成了独特的"计算存储分离"部署模式:计算层部署在 Databend 端,而存储层完全保留在用户端。

这种架构设计将用户数据完全存储在其自有的对象存储中,用户随时可以停止使用服务而不会面临数据迁移问题,这种数据主权完全掌控的方案获得了国内用户的高度认可。在这一模式下,Databend 作为托管服务提供计算能力、任务管理、任务调度以及用户界面,企业内部团队可以直接通过提供的 UI 界面连接和使用 Databend 服务。这种部署方式已经成为国内项目落地的主流选择,有效平衡了技术先进性与数据安全合规的双重要求。

Databend 始终坚持将基本盘建立在简单易用的基础上。产品发展的核心原则包括:持续提升易用性,夯实 SQL 基本功能,引入 AI 能力为企业赋能。在技术路线选择上,Databend 明确提出"正确性大于高性能"的价值观,优先保证系统稳定性和数据准确性,同时追求低成本运营。

更重要的是,Databend 坚持从实际需求出发,不迷恋技术,而是专注于帮助用户解决实际业务问题。

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

👨‍💻‍ Databend Cloud:databend.cn

📖 Databend 文档:docs.databend.cn

💻 Wechat:Databend

✨ GitHub:github.com/databendlab…


网站公告

今日签到

点亮在社区的每一天
去签到