论文阅读: 面向Planning的端到端智驾Planning-oriented Autonomous Driving

planning,oriented,autonomous,driving · 浏览次数 : 4

小编点评

本文提出了一种名为Unified Autonomous Driving (UniAD)的新型自动驾驶框架,旨在解决当前自动驾驶系统中存在的问题,如任务间的协同不足和累积错误。通过将感知、预测、规划等任务整合到一个统一的框架中,UniAD实现了更高效、灵活的自动驾驶系统设计。 1. 论文背景指出,当前的自动驾驶系统多采用序列化的模块化任务处理方式,这导致了任务间的协同不足和累积错误。为了解决这些问题,作者提出了一个面向Planning的统一自动驾驶框架。 2. UniAD方案的核心思想是从全局视角出发,让各个模块的特征提取可以互相补充,同时各个任务之间可以通过统一的查询接口进行通信。这样的设计使得智驾系统的各个模块能够更加灵活地协同工作,提高了整体的智能水平。 3. 在Planning模块的设计上,作者提出了一种新的方法,将原生的导航信号转换为可学习的嵌入命令,使得自车可以向Motion模块提供多种可能的意图。此外,作者还引入了BEV特征,使得模型能够更好地理解周围环境,并解码出未来的路线规划。 4. 论文中还提到了实验结果,使用nuScenes数据集进行测试,结果显示UniAD方案在多个方面均优于之前的最优水平。通过与现有设计的模型进行对比,实验证明了多任务协作的优势以及对Planning效果的显著提升。 5. 论文的局限性在于计算量大和算力需求高,尤其是在训练输入中加入短期历史数据时。未来研究方向包括探索是否需要加入更多任务模块,如深度知觉和行为预测,并探讨如何将这些模块有效地嵌入到统一框架中。 综上所述,本文提出的UniAD方案为自动驾驶系统的设计提供了一种新的思路,通过整合各个任务并采用基于查询的设计,实现了更高效、灵活的自动驾驶系统。实验结果表明,该方案在多个方面均取得了显著的优势。

正文

原文地址:https://arxiv.org/abs/2212.10156

背景

当代自动驾驶系统多采用序列化的模块化的任务处理方式,比如感知、预测、规划等。为了处理多样的任务、达到高水平智能,当代智驾一般会让独立的模型去处理不同的task;又或者用具有不同任务头的单独的模型去处理不同的任务。但是这些方法会累积错误,且任务间的协同不足。

作者认为应该设计一个更优的、可理解的、面向最终目标的框架。基于这个面向Planning的思想,他们提出了 Unified Autonomous Driving (UniAD)方案,一种新的自动驾驶框架。这个方案从全局视角出发,让智驾的各个模块特征提取可以互相补充,各个任务之间可以通过统一的查询接口通信。在此基础上,UniAD享有灵活的中间状态的表征,且可以灵活的交换各个子模块的知识、特征,以服务于最终的Planning。

作者团队用这个方案实现的智驾系统去跑nuScenes的基准测试,结果在所有方面都远远优于之前最优水平的智驾系统。

不同设计方案的对比
方案

  • 多数的业内解决方案是部署不同的模型解决不同的任务,如上图中a
  • 具有不同任务头的多任务-单模型学习范式,共享同一个主干输入,如上图中b
  • 端到端的设计范式,统一感知、预测等。如上图中c
    • 直接面向Planner优化的统一模型 c1
    • 分任务处理的序列化模型 c2
    • 面相Planner的多任务协作模型 c3

UniAD实现方法

UniAD

  • 完全遵循面向Planning的哲学
  • 研究感知、预测模块的效果,从感知、预测等到最终的规划联合优化
  • 可以通过查询接口链接每一个模型节点,查询需要的信息
  • 地图上的空间占用信息,仅用于视觉目的
  • 最终,一个基于Attention的Planner模型,在获取先前任务的知识成果的基础上,规划自车路线

Tracker、Map、Prediction、Motion、Occupancy、Planning,各模块都有更详细一些的设计及实现的介绍,感兴趣的可以查阅下原文。这里选择性的介绍下Planning模块的详细设计。

Planning模块实现

没有高精地图及预定义导航的规划模块,通常需要一个高水平抽象的命令,去指示车的运动方向。基于此,作者把原生的导航信号(左转、右转、前行)转换成了可学习的嵌入命令。自车向Motion模块的query可以获取自车的多种可能的意图,我们再加上嵌入命令组成一个“plan query”,提供查询接口。再把BEV特征加入进去,使得模型可以意识到周围环境,然后让模型解码出未来的路线规划T。
为了避免碰撞,采用牛顿的推理方法优化所规划的路线,得到T*。公式如下:

训练过程

从经验上看,两阶段训练的效果更稳定。

  1. 联合训练感知模块,如tracking,mapping,耗时6个时间段。
  2. 端到端训练感知、预测、规模所有模块,耗时20个时间段。

实验结果

使用nuScenes数据集做实验,在三个方面验证了我们设计的有效性:

  • 各方的实验结果揭示了多任务协作的优势、及其对Planning的效果
  • 各任务的模型对比现有设计的模型效果
  • 对特定模块的设计空间进行的实验验证(消融) (ablations on the design space for specific modules)

多模型联合训练实验对比

  • 最优结果标为黑体、次优结果标下划线
  • 第一行(ID-0)是多任务学习模型 ,仅做对比用
  • 观察第10-12行
    • 预测比感知离规划更近,所以作者首先加入了两个类型的预测任务到框架里:Motion、Occupancy的预测
    • 对比原生的端到端训练Planning模型(Exp.10, Fig. 1(c.1)),只有当两者协作时,planning L2 and collision rate指标最好。
    • 所以,可以得出结论:为了更安全的规划目的,这两个预测任务是必要的
  • 观察第7-9行
    • 展示了两个预测任务的协作效果,当两者紧密结合的时候,两者效果都显著提升了
    • 疑问:为何没有单独Motion预测的实验?
  • 观察第4-6行
    • tracking、mapping模块协作,让预测效果获得显著的提升(-9.7% minADE, -12.9% minFDE, -2.3 MR(%))
  • 观察第1-3行
    • 合并训练感知模块的子任务,与分开训练各模块的效果类似
  • 观察第0、12行
    • 相比于原生的多任务学习范式,planning-oriented设计在所有基础指标里都有显著的提升 (-15.2% minADE, -
      17.0% minFDE, -3.2 MR(%)), +4.9 IoU-f.(%)., +5.9 VPQ f.(%), -0.15m avg.L2, -0.51 avg.Col.(%))

各模型也都有更详细的实验结果对比,全部都是领先的或者有竞争力的。这里我们仅选择性的挑选Occupancy prediction模型结果展示。对更多单独模型对比效果感兴趣可以进一步查阅原文。

Occupancy prediction模型效果对比

  • 在对规划更关键的近距离区域,UniAD方案有显著的提升。
  • “n.” 和 “f.” 表示近区域 (30×30m) 和远区域 (50×50m) 评估
  • † 代表使用了强化训练。

总结

本文讨论了智驾算法系统级别的设计,提出了UniAD方案,一个面向最终Planning的设计。对于感知、预测模块下子任务的必要性进行了详细的分析。为了联合各个任务,采用一个基于查询的设计去链接所有子模块。得益于环境中各个客体交互更丰富的展现,广泛的实验表明本方法在所有方面都具有优越性。

局限与未来研究方向

  • 此方案工作量大,算力需求大,尤其是训练输入里加上短期历史数据。
  • 是否值得加入更多任务模块(如深度知觉、行为预测),以及如何嵌入,也值得探索。

与论文阅读: 面向Planning的端到端智驾Planning-oriented Autonomous Driving相似的内容:

论文阅读: 面向Planning的端到端智驾Planning-oriented Autonomous Driving

设计一个更优的、可理解的、面向最终目标的框架。基于这个面向Planning的思想,他们提出了 Unified Autonomous Driving (UniAD)方案,一种新的自动驾驶框架。这个方案从全局视角出发,让智驾的各个模块特征提取可以互相补充,各个任务之间可以通过统一的查询接口通信。在此基础...

【论文阅读】自动驾驶光流任务 DeFlow: Decoder of Scene Flow Network in Autonomous Driving

再一次轮到讲自己的paper!耶,宣传一下自己的工作,顺便完成中文博客的解读 方便大家讨论。 Title Picture Reference and pictures paper: https://arxiv.org/abs/2401.16122 code: https://github.com/K

【论文阅读】VulCNN受图像启发的可扩展漏洞检测系统

在本文中,我们的目标是在扫描大规模源代码漏洞时实现可扩展性和准确性,我们提出了一个新颖的想法,可以在保留程序细节的同时有效地将函数的源代码转换为图像,我们还对一个超过2500万行代码的案例进行了研究,结果表明VulCNN可以检测到大规模漏洞。通过扫描报告,我们终于发现了 73 个 NVD 中未报告的...

Q-REG论文阅读

Q-REG Jin, S., Barath, D., Pollefeys, M., & Armeni, I. (2023). Q-REG: End-to-End Trainable Point Cloud Registration with Surface Curvature. paper: 230

全渠道定价、库存决策,混合整数规划建模求解,MNL选择模型,内附代码!

敲敲敲详细的高分牛刊论文阅读笔记,还有Python的PyLogit包详解!全渠道、运筹规划领域入门/基础模型,内附论文的主要内容翻译解读、模型讲解和代码实现!

【带你读论文】向量表征经典之DeepWalk

摘要:详细讲解DeepWalk,通过随机游走的方式对网络化数据做一个表示学习,它是图神经网络的开山之作,借鉴了Word2vec的思想。 本文分享自华为云社区《[论文阅读] (25) 向量表征经典之DeepWalk:从Word2vec到DeepWalk,再到Asm2vec和Log2vec》,作者:ea

Rethinking Point Cloud Registration as Masking and Reconstruction论文阅读

Rethinking Point Cloud Registration as Masking and Reconstruction论文阅读,用MAE的结构,想要预测出对齐后点云,然后提高跨点云间配准点的特征描述一致性。

带你读AI论文丨S&P21 Survivalism: Living-Off-The-Land 经典离地攻击

摘要:这篇文章属于系统分析类的文章,通过详细的实验分析了离地攻击(Living-Off-The-Land)的威胁性和流行度,包括APT攻击中的利用及示例代码论证。 本文分享自华为云社区《[论文阅读] (21)S&P21 Survivalism: Living-Off-The-Land 经典离地攻击》

PreSTU:一个专门为场景文本理解而设计的简单预训练模型

摘要:在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺乏的。我们如何才能学习出强大的场景文本理解(STU)的V&L模型呢? 本文分享自华为云社区《场景文本理解预训练PreSTU》,作者: Hint 。 【论文摘要】 在视觉与语言(V&L)模型中,阅读和推理图像中的文本的能力往往是缺

软件开发人员必须阅读的20本书

本文翻译自国外论坛 medium,原文地址:https://irina-seng.medium.com/top-20-books-a-software-developer-must-read-updated-b24bcc9ee3d > 持续学习的心态是软件开发人员想要保持专业相关性并增长自身价值的关