业务背景

货拉拉成立于 2013 年，成长于粤港澳大湾区，是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至 2022 年 4 月，货拉拉的业务范围已经覆盖了国内 352 座城市，月活司机达到 58 万，月活用户达到 760 万，包含 8 条以上的业务线。

货拉拉大数据体系为支撑公司业务，现在已经成立三个 IDC 集群、拥有上千台规模的机器数量，存储量达到了 20PB、日均任务数达到了 20k 以上，并且还处在快速增长的过程中。

大数据体系

货拉拉大数据体系从下往上分为 5 层，最下面的是基础层和接入层，这两层主要会提供基础数据的存储、计算以及集群的管理功能。在基础层和接入层之上是平台层和数仓。在平台层之中包含了数据研发平台和数据治理平台，基于平台层的能力和数据仓库的数据体系，在这之上面包含了含有业务属性的服务层和应用层。整个体系自下而上相互支持，实现支持业务和赋能业务的能力。

货拉拉-大数据体系

图1.1 货拉拉大数据体系

数据处理流

货拉拉典型的数据处理流，可以分成数据集成、采集、数据的存储计算、数据服务四部分，同时也包含了实时、离线以及在线三大业务场景。

货拉拉-数据处理流

图1.2 货拉拉大数据数据流

在数据采集阶段会存在实时采集和离线采集两条路线。

实时采集比较典型的场景为用户端上埋点会直接同步到大数据平台做存储，供后续的在线和离线计算使用。
离线的数据主要是来自于业务方的数据库，会通过天或者是小时定期采集到大数据存储中，以供后续使用。

中间是数据的存储和计算阶段。在离线场景中会通过对数据 ETL 之后转换为构造数仓的分层体系。实时比较典型的场景为数据在经过 Flink 的处理后会直接落在线存储系统，类似于 HBase 和 OLAP 等等，为后续的业务系统提供数据服务。

OLAP 演进概览

货拉拉从 2021 年开始进行 OLAP 的技术研究，截至目前已经经历 3 个阶段：

2021 年上半年为货拉拉的 OLAP1.0 阶段，这个阶段我们主要是支持公司的罗盘业务，我们引入的是能够提供较好的单表依据和查询能力的 Apache Druid 引擎。
2021 年下半年为货拉拉的 OLAP2.0 阶段，我们支持了智能定位工具，这个阶段引入了够提供单表明细查询，并且还有较高的压缩率 ClickHouse。
今年为货拉拉的 OLAP3.0 阶段，伴随着公司业务需求的不断增多，我们也会需要用到多数据源的关联分析。基于此，由于 Apache Doris 具备大表关联分析的能力，我们引入了 Apache Doris 引擎。

货拉拉-OLAP 演进

图2.1 货拉拉OLAP体系演进过程

OLAP1.0 孕育期

业务需求分析

先看下没有引入 OLAP 之前的业务数据流：

货拉拉-OLAP1.0-业务场景

图3.1 OLAP1.0业务场景

根据该图可以看到业务的数据通过实时和离线处理之后会落在 MySQL，MySQL 之中储存了维度聚合之后的结果数据，这也意味着会在 Flink 之中做大量的聚合分析，根据业务需要的相应维度所做的一系列组合都是在Flink之中做实时聚合，最后将结果储存到 MySQL。

存在的问题：

存在存储瓶颈，类似于 Kylin 之中的维度爆炸的问题。
开发成本、高效率低。当业务侧需要新增维度的时候会需要对 Flink 中的所有作业都做一定的修改，然后再重新上线。
无法支持部分聚合需求。

对于存在的这些问题，我们经过分析之后，总结出了 3 个背后存在的需求点：

业务侧希望能够横向扩容，解决存储瓶颈。
希望能够自由组合维度做分析，提升业务侧开发效率。
希望能够支持任意维度实现跨度的分析。

解决方案

根据业务需求，并通过调研，我们决定使用 OLAP 引擎来支持业务需求。那我们如何选择一款 OLAP 引擎，并把它稳定的应用到生产之中呢？

我们总结了如下的 4 个步骤作为解决思路：

货拉拉-OLAP 1.0 解决思路

图3.2 OLAP 1.0 解决思路

技术调研

技术调研阶段，我们对比了 Durid、ClickHouse、Kylin、Presto 和 Doris 等等引擎。结合我们上述的 3 个业务需求，最终我们选择了 Druid 引擎。

原因是 Druid 除了能够满足我们的业务需求之外，还有一个比较重要的影响因素是 Druid 引擎是纯 Java 开发，与我们的技术栈比较吻合，可控性更高。

货拉拉-OLAP1.0技术调研

图3.3 OLAP1.0技术调研

POC 阶段

POC 过程中，从以下 3 个步骤着手：

功能验证。在功能验证中，我们会收集业务侧的 SQL，之后提取 SQL Pattern，然后再根据 Druid 引擎的 Rollup 语义做 SQL 的改写，涉及到大量 UDF 的改写、Rollup 语义兼容以及 Count Distinct 语义兼容等等。
性能验证。我们会直接采用业务真实的数据和业务真实的 SQL 来执行。验证过程中我们会将 Cache 关闭，分别统计 P75、P90、P99 的查询耗时。在这过程中，我们会发现有部分查询的性能没有达到要求，之后我们会做性能分析。Druid 引擎本身没有比较完善的性能分析工具，不能够很好的打印出它的执行计划以及各个算子的耗时，所以我们采用了第三方的 Arthas 火焰图进行分析。定位了相应的算子后，最终我们通过优化我们建表导数的逻辑以及索引构建的逻辑，并主要通过调整 Segment 大小的同时加入物化视图的方法，进行一些参数的调整以此来优化性能。
准确性验证。我们将业务真实数据同时写 Hive 表和 Druid，之后跑 Hive SQL和 Druid SQL，来进行数据质量的校对。在这个过程中我们会发现例如 StringLast 函数等一些函数会在特定的场景下出现计算值不稳定的问题。

货拉拉-OLAP1.0 POC 验证

图3.4 OLAP1.0 POC 验证

稳定性保障

当 POC 验证完成之后，接下来我们会进行稳定性的保障。我们将稳定性保障分为事前、事中、事后 3 个阶段：

货拉拉-OLAP1.0 稳定性保障

图3.5 OLAP1.0 稳定性保障

上线阶段

当稳定性保障建立完成之后就会进入到上线阶段。上线过程我们同样分成了 3 个阶段：

OLAP测试阶段。在这个阶段中，业务的数据会接入到 Druid 之中，但是业务的真实查询还是通过原来的 MySQL 库。这个阶段主要会验证 Druid 引擎的数据质量和 Druid 集群的稳定性。
上线观察阶段。在这个阶段，业务的查询会切回到 Druid。同时旧的 MySQL 链路还没有下线，业务侧能够随时切回 MySQL 链路。
OLAP运行稳定阶段。我们会把 MySQL 旧的链路下线，做资源的回收。

货拉拉-OLAP1.0 上生产

图3.6 OLAP1.0 上生产

问题总结

下面总结了 1.0 阶段时遇到的问题：

数据导入部分中，实时数据乱序为典型问题。
在数据准确性验证阶段发现 StringLast 的函数值不稳定。
Durid 没有一个高效的精准去重的函数。

货拉拉-OLAP1.0 问题总结

图3.7 OLAP1.0 问题总结