理想加入“端到端”竞赛：虽只是PPT--快科技--科技改变未来

正文内容 评论（0）

理想加入“端到端”竞赛：虽只是PPT

2024-07-08 08:53:35 出处：虎嗅网作者：肖漫编辑：落木评论(0)

#理想汽车 #自动驾驶

“端到端”的风正在席卷中国智驾行业。

进入 2024 年下半年，如果有车企谈智能驾驶时不谈“端到端”，那大概率会被视为落后了。

7月5日，理想汽车发布了基于端到端模型、VLM 视觉语言模型和世界模型的全新自动驾驶技术架构。这基本是理想汽车端到端路径的一次方法论输出，较为完整地呈现出理想智驾下一步发展路径。

在虎嗅汽车看来，此次发布有三大值得关注的焦点——理想的“端到端”和其它玩家的有何不同？理想的智驾研发到了什么程度？以及，理想为何在此时强调智驾技术能力？

相较华为，理想方案更为激进

先看理想全新的自动驾驶技术架构。其受诺贝尔奖得主丹尼尔·卡尼曼的快慢系统理论启发，在自动驾驶领域模拟人类的思考和决策过程，采用了“快系统”和“慢系统”进行协同。

快系统，即系统 1，善于处理简单任务，是人类基于经验和习惯形成的直觉，足以应对驾驶车辆时 95% 的常规场景。

慢系统，即系统 2，是人类通过更深入的理解与学习，形成的逻辑推理、复杂分析和计算能力，在驾驶车辆时用于解决复杂甚至未知的交通场景，占日常驾驶的约 5%。

在这一架构原型下，系统 1 由端到端模型实现，通过接收传感器输入，并直接输出行驶轨迹用于控制车辆。系统 2 由 VLM 视觉语言模型实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统 1。双系统构成的自动驾驶能力将在云端利用世界模型进行训练和验证。

据理想的说法，其系统 1 的端到端模型采用的是 One Model 方案，主要由摄像头和激光雷达构成，多传感器特征经过 CNN 主干网络的提取、融合，投影至 BEV 空间。

另外理想在输入端还加入了车辆状态信息和导航信息，经过 Transformer 模型的编码，与 BEV 特征共同解码出动态障碍物、道路结构和通用障碍物，并规划出行车轨迹。

相较于华为、小鹏等厂商采用的是分段式端到端方案，理想采用的 One Model 方案更为激进。特斯拉同样是 One Model 方案，但其“输入图像、输出控制”的方案比理想的“输入传感器信息、输出行驶轨迹”更进一步。

需要指出的是，目前各家厂商在端到端上采用不同的路径只是选择上的差异，并无优劣之分。（关于端到端的技术原理，虎嗅汽车团队曾在《特斯拉，要跟华为开战了》一文中有过详细解析）

理想这套架构的特别之处其实是系统 2，其基于的 VLM 视觉语言模型的算法架构由一个统一的 Transformer 模型组成，将 Prompt（提示词）文本进行 Tokenizer（分词器）编码，并将前视相机的图像和导航地图信息进行视觉信息编码，再通过图文对齐模块进行模态对齐，最终统一进行自回归推理，输出对环境的理解、驾驶决策和驾驶轨迹，传递给系统 1 辅助控制车辆。

在实际场景中，如果系统二发现行驶过程中地面路面非常坑洼不平时候，其会给系统 1 发一个降速的提醒，并告知驾驶员前方的坑洼路车辆将慢速行驶，减少颠簸；又或者是能够识别公交车道的位置以及辨别潮汐车道等。

用理想的话说，系统 2 相当于副驾坐了个驾校的教练时刻监督驾驶行为。值得一提的是，小鹏的大语言模型 XBrain、毫末的自动驾驶语义感知大模型也有类似能力。

据悉，理想的 VLM 模型参数量达到 22 亿，VLM 模型在车端的推理时间也从 4.1 秒优化至 0.3秒。