场景
与传统数据仓库不同,湖仓一体实现了存储与计算的完全分离。湖仓一体将将数据湖和数据仓库的优势相结合,存储层以 HDFS 或云对象存储为基础,通过开放的数据格式存储数据,计算层统一了实时、历史数据、批处理和流处理,所有引擎共享相同的数据,打造了 Shared Data 的架构,与传统 Shared Disk 架构截然不同。
极速
基于 MPP 执行框架和 Pipeline 数据处理模型,查询引擎在多机多核的分布式环境下能够快速处理海量数据。凭借高效的元数据和数据缓存机制,SelectDB 分析引擎性能超出 Trino 2-3 倍,实现极速性能。
开放
通过可扩展的连接器框架,无缝集成湖仓生态系统中的主流开放数据格式和 Catalog,同时广泛支持多种数据源,如 Hive、Iceberg、Hudi、Paimon 以及支持 JDBC 协议的数据库系统。
统一
凭借内置存储,SelectDB 既可以作为分析型数据库使用、也可以作为湖仓分析引擎使用。融合统一的架构,降低架构复杂性的同时,实现数据一致性和管理一致性。
在引入 Doris 替换 Presto 后,我们内部的可视化数据自助分析工具丰景台场景广泛应用,目前报表业务已 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48% 显著收益。
我们基于 Apache Doris 和 Iceberg 构建了湖仓融合架构,实现架构的大幅简化及统一,目前,Apache Doris 集群超 20 个 ,总节点数百个,已对接内部 200+ 项目,日均查询量超过 1500 万,总存储数据量 PB 级别。
目前我们基于 Apache Doris 整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB。在湖仓融合分析方面,借助 Doris 优化后,相关类型查询 IO 请求量从几百 GB 降至几百 MB,有效缓解了网络带宽压力,并提升了整体查询性能。