又一关键系统上线,理想车云和自动驾驶系统登陆OceanBase
8 月 1 日,理想汽车公布 7 月交付数据,理想汽车 2023 年 7 月共交付新车 34,134 辆,同比增长 227.5%,并已连续两个月交付量突破三万。至此,理想汽车 2023 年累计交付量已经达到 173,251 辆,远超 2022 年全年交付量,在一众国内造车新势力中保持领先。
这一成绩不仅源于理想汽车“家用豪华 SUV”的精准市场定位,同时也得益于交付能力和产品力均做到了足够“能打”。而这背后,都离不开一个重要的硬核辅助——数据库。
对于车企来说,产线的平稳高效运转是“生命线”。产线上的任一系统出现故障将直接导致质量问题,甚至停产,停产的每一秒都意味着人力、资源等的巨大损失。而传统数据库在稳定性方面存在隐患,故障恢复依赖人工干预,难以满足智能制造基地的高要求。
理想汽车的常州智能制造基地,依靠完全自研的 Li-MOS,整合了世界领先的人工智能等前沿技术,打造了一套安全高效的智能生产系统。2022 年 1 月,经过严苛的测试,理想汽车的 Li-MOS、WMS(仓储管理系统)通过 OceanBase 进行数据库升级,以解决系统稳定性和连续性问题。
基于 Paxos 协议,OceanBase 实现了数据库服务“故障自动恢复” 和 “数据零丢失”,在网络条件复杂的情况下,也能保持稳定的性能和可用性。作为共识协议的“本源”、容错性最好的 Paxos,其工程实现难度也是最大的。这也是业界不少产品采用 Raft 简化版算法的原因。而 OceanBase 早在 1.0 版本就完整独立地实现了基于Multi-Paxos 算法的日志同步机制,并在极致场景下打磨多年,这也为 OceanBase 支撑跨城远距离的“多地多活”部署架构提供了坚实基础。
升级至 OceanBase 后,理想汽车的产线执行系统数据库抖动频率平均下降约 80%,对于常见的故障事件真正做到了“先恢复,后分析”,大幅提升系统运行稳定性,有力保障智能制造基地稳定高效运行。而凭借一整套智能运维体系,异常 SQL 诊断可以做到实时自动分析,DBA 在关键时刻只需看一眼可疑 SQL 列表就能快速判断问题根因,并获得合理的应急优化建议。与此同时,升级后的数据库实现了同城双活、异地 RPO=0,这使得理想汽车的产线执行系统能够在无人值守的情况下,30 秒内完成故障的自动恢复。
因此,即便从 7 月起理想汽车常州工厂每周产能爬升至 8000 台/周的历史最高峰值,数据库也能支撑产线平稳连续生产,保证消费者在最短时间内收到爱车。
随着消费者对自动驾驶需求的日益增加,众多新能源汽车厂商将大量智能辅助功能集成到汽车当中,让驾乘体验更加便捷、舒适。而车辆和云端的实时数据交互,也保证车辆功能的准确操控和可视化。
在自动驾驶方面,以理想 L9 为例,其采用了理想 AD Max 智能驾驶系统,标配强大的感知系统,6 个 800 万像素摄像头,4 个 200 万像素环视摄像头和 1 个 200 万像素后视摄像头,实现了 360 度全方位以及最远 550 米的前视感知距离;1 个前向毫米波雷达、12 颗第六代超声波传感器和 1 颗 128 线激光雷达,增强了感知冗余能力以及弱暗光等复杂环境适应性,能更有效地识别风险,提升驾驶的安全性。
随着今年理想汽车城市 NOA 能力的发布,大模型 AI 加持下,自动驾驶系统产生和用于训练的数据量呈现井喷态势。这些大量的数据处理场景,都对数据库的高并发、低延迟、强扩展提出了极严苛的要求。
在车云方面,体验过理想汽车高度智能化系统的用户相信都有一种感受,那就是其丰富的功能(如直线召唤、远程温控,OTA 升级能力等)让理想汽车的操控更加便捷和人性化。而这些功能的背后,就有大量传感器和电控系统在和云端进行着数据交互。
有别于理想汽车产线制造系统在数据中心私有部署,车云业务出于安全和灵活的考虑采用不同云基础设施进行支持,并需要在公有云多个地域部署。这样从架构层面做到即便某一个局部功能出现故障,整体服务不会受到影响,车主的行车安全持续受到保障。
自动驾驶和车云业务的特点带来了技术上的巨大挑战:一方面由于多种数据库产品在不同云基础设施上的功能、性能各异,运维复杂度高,差异大,这使得规模化管理、资源整合异常困难;另一方面,传统的单体数据库横向扩展困难,依赖人工拆分,单点瓶颈问题非常突出;同时其主备逻辑复制的结构决定了无法承担类似车联网系统多地访问的低延迟要求。
部分数据库产品虽然解决了扩展性问题,但是其一致性协议的工程实现方案对网络延迟敏感,又使得在远距离机房甚至跨地域同步时,或者网络条件不稳定的场景下,会发生明显的写入抖动、服务不可靠的问题。同时,存储、计算、管控分离的架构也导致了响应时间往往难以满足类似车联网、自动驾驶业务的低延迟要求,使得数据库的压力越来越大。
在理想汽车智能生产系统稳定运行 17 个月后,2023 年 5 月,OceanBase 的云数据库产品 OB Cloud 凭借出色的性能和灵活的部署模式,帮助理想汽车自动驾驶和车云等系统批量上线 OB Cloud,以应对大量云场景挑战。
这套数据库架构要稳定的服务好业务,需要对三个核心问题给出答案:1.云上多地多活;2.海量并发 3.性价比。具体如何在 OB Cloud 解决这些问题?请看下面的分析。
解决方案一:通过 OB Cloud 实现混合云统一部署,解决异地多活、多基础设施的无缝对接问题
理想汽车为了在服务体验上尽可能提供极致的弹性和连续性,在全国跨多个地域和多家云基础设施,通过类似“单元化”的架构构建了自己的车云服务。而 OceanBase 天然无共享架构,不挑专属硬件,并能支持不同云基础设施。
通过这一点,理想汽车既可以在数据中心部署整套 OceanBase 平台,也可以在不同云基础设施、云服务多种形态上提供一致的功能和管理界面,大幅提升了存储底盘的一体性和管理效率。同时基于前面提到的原生高可用架构,OB Cloud 能够在局部单点故障时快速自动恢复,即使跨地域部署也能做到稳定服务,确保类似联网车机等关键系统的安全运行,保障车主的出行驾乘体验。
解决方案二:基于 OB Cloud 的多点写入能力,解决海量车辆行驶数据的大并发写入问题
OceanBase 的原生分布式架构,单个集群即可扩展至上千节点,承载 PB 级别以上的海量数据。我们通过 OceanBase 强大丰富的分区表特性,将用户不同业务场景中的数据按照 hash、range、list 等不同的维度进行设计。使得每个节点上的数据分区可同时接受写入,突破了传统数据库主备节点前“一写多读”的限制。
具备高可扩展性的同时,通过一系列优化分布式事务开销的机制和手段,使得 OB Cloud 能够通过集群中多个不同的租户为自动驾驶系统中记录汽车行驶环境、行驶速度等训练数据包括元数据的过程提供高性能、低延迟,极高弹性的存储引擎,显著提升了基于 AI 大模型的 AD MAX 3.0 的训练效率。
解决方案三:在海量数据规模下,在“数据的存储成本”和“数据集的可操作、可分析性”上取得平衡
如果将大量的数据存储在单机关系型数据库中,面临“存不下,存得贵”的问题,而如果转移到其他非结构化存储引擎中,解决了“存不下”问题后,数据又变得不那么容易进行修改、分析、处理。
我们基于用户的场景,将数据分为流水型、状态型,或者基于业务类型分别放置在不同的集群中,而 OceanBase 基于 LSM-Tree 的存储引擎,其行列混存的存储格式,结合高级编码压缩技术,为巨量数据的存储带来超过 70% 的压缩率,节省大量存储成本。与此同时,一套引擎下的 HTAP 能力又使得这些较为庞大的数据集依然能够被按照关系型模型的方式访问,一举两得,大幅提升了研发效率,最终带来的是终端用户更好的体验。
目前,理想汽车的智能生产、仓储系统都已经稳定运行在 OceanBase 上,打造全球领先的智能制造系统;而随着车云和自动驾驶系统登陆 OB Cloud,进一步实现了混合云部署,解决了海量数据并发和异地多活的难题,让用户的智能驾驶体验更加安全与丝滑。未来,理想汽车与 OB Cloud 的合作将在更多云场景落地,推动产品加速创新。国产新能源与国产科技碰撞,让每一笔「制造」都算数。