京东广告基于 Apache Doris 的冷热数据分层实践

用户案例
2025/02/18
京东技术

京东广告积累了海量广告数据,目前系统总数据容量接近 1PB,数据行数超 18 万亿,日查询请求量达 8,000 万次,日最高 QPS 达 2700。然而,随着数据量的持续激增,存储资源已逐渐成为瓶颈。

为此,京东广告对存储资源进行多次扩容,存储容量增加了近 10 倍,但日查询请求量仅增长 2 倍。同时,频繁的扩容也导致计算资源利用率降低,造成资源浪费。分析发现,日常查询中有 99% 集中在近一年的数据上,数据使用呈现出明显的冷热现象。

为解决这一问题,京东广告引入 Apache Doris 建设广告数据存储服务,探索低成本、高利用率的冷热数据分层方案,旨在为广告主提供实时广告效果报表和多维数据分析服务。

京东广告先后尝试了 Apache Doris 数据湖、冷热数据分层方案,并在冷热分层方案的基础上,对查询优化器、分桶裁减、前缀索引、物化视图等持续改进及优化,最终实现存储成本降低 87%、并发查询性能提升超 10 倍、以及查询延迟大幅缩短的显著收益。

完整方案及优化实践详见博客原文