論文reading學習記錄7 - daily - ViP3D

文章目錄

  • 前言
  • 一、題目和摘要
  • 二、引言
  • 三、相關工作
  • 四、方法
  • 五、訓練


前言

開沖,清華大學的,帶HDmap的端論文,用的Query,和UniAD一樣。


一、題目和摘要

ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
ViP3D:通過三維智能體查詢進行端到端視覺軌跡預測
注意,這篇論文要輸入HDMap

PS:Query 是 Transformer 框架里的“查詢向量”
Agent Query 的核心想法是
給場景中每一個潛在的交通參與者分配一個可學習的 Query 向量(就像是給每個人一個“跟蹤編號”)
這個向量在網絡計算時會主動去從傳感器特征(比如圖像特征)里抓取與自己對應的那個人/車的相關信息。
它和傳統的密集 BEV 特征不一樣:
傳統:先生成一張密密麻麻的地圖,再用算法去找人 → 中間有 NMS、關聯匹配等不可微步驟。
Agent Query:一開始就假設“我有 N 個對象”,每個對象一個 Query,全程跟蹤 → 不需要 NMS 或匹配,過程可微。

感知和預測如果分離,預測作為下游模塊,只能從感知模塊接收有限的信息。更糟糕的是,感知模塊的誤差會傳播和累積,對預測結果產生不利影響。
在這項工作中,我們提出了ViP3D,這是一種基于查詢的視覺軌跡預測管道,它利用原始視頻中的豐富信息直接預測場景中代理的未來軌跡。ViP3D采用稀疏代理查詢來檢測、跟蹤和分析,并在整個管道中進行預測,使其成為第一種完全可微的基于視覺的軌跡預測方法

與使用歷史特征圖和軌跡不同,來自先前時間戳的有用信息被編碼在Agent Queries中,這使得ViP3D成為一種簡潔的流式預測方法。此外,在nuScenes數據集上的大量實驗結果表明,ViP3D在基于視覺的預測方面比傳統管道和之前的端到端模型具有更強的性能。

二、引言

感知和預測是現有自動駕駛軟件管道中的兩個獨立模塊,它們之間的接口通常被定義為手工挑選的幾何和語義特征,如歷史目標軌跡、目標類型、目標大小等。
缺點:導致可用于軌跡預測的有用感知信息的丟失。例如,尾燈和剎車燈指示車輛的意圖,行人的頭部姿勢和身體姿勢則表明他們的注意力。
基于激光雷達的軌跡預測的端到端模型缺點:
(1)無法利用來自相機的豐富細粒度視覺信息;
(2)這些模型使用卷積特征圖作為幀內和幀間的中間表示,因此受到不可微操作的影響,如對象解碼中的非最大抑制和多對象跟蹤中的對象關聯。
為了解決這些缺點,我們提出了一種新的管道,該管道利用以查詢為中心的模型設計來預測未來的軌跡,稱為ViP3D(通過3D目標查詢進行視覺軌跡預測)。
如何做:ViP3D消耗來自周圍攝像機和高清地圖的多視圖視頻,并以端到端和簡潔的流式方式進行代理級未來軌跡預測,如圖1所示。
在這里插入圖片描述
ViP3D使用3D目標查詢作為流水線的主線,從原始視頻幀輸入中實現端到端的未來軌跡預測。這種新穎的設計通過有效地利用細粒度的視覺信息(如車輛的轉向信號)來提高軌跡預測性能。

具體而言,ViP3D利用3D代理查詢作為整個管道的接口,其中每個查詢最多可以mapping到環境中的一個目標。
在每個時間步,查詢從多視圖圖像中聚合視覺特征,學習代理的時間動態,對代理之間的關系進行建模,并最終為每個代理生成可能的未來軌跡。隨著時間的推移,3D代理查詢被保存在一個內存庫中,可以對其進行初始化、更新和丟棄,以跟蹤環境中的代理。

此外,與以前利用歷史代理軌跡和來自多個歷史幀的特征圖的預測方法不同,ViP3D只使用來自一個先前時間戳的3D代理查詢和來自當前時間戳的傳感器特征,使其成為一種簡潔的流式方法。

三點核心貢獻:

  1. ViP3D是第一種完全可微分的基于視覺的方法,用于預測自動駕駛目標的未來軌跡。而不是使用手工挑選的特征,像是歷史軌跡和目標大小,ViP3D利用了原始圖像中豐富而精細的視覺特征,這些特征對軌跡預測任務很有用。
  2. ViP3D以3D Agent Queries為接口,顯式地對目標級檢測、跟蹤和預測進行建模,使其具有可解釋性和可調試性。
  3. 我們實驗最jb屌

三、相關工作

目前端到端的痛點:它們都依賴于BEV特征圖或熱圖作為中間表示,這導致從密集特征圖到實例級特征時不可避免的不可微操作,例如檢測中的非最大抑制(NMS)和跟蹤中的關聯。
我們牛逼,HDmap,把稀疏目標查詢作為表示,大大提高了可微性和可解釋性。真的有用嗎?

從密集特征圖 → 實例級信息,一般會經歷兩個關鍵步驟:
檢測里的 NMS(非最大抑制)
檢測會生成一堆可能的框,然后 NMS 會把重疊度高的框合并掉,只保留一個最可能的。
這個過程是基于“比較大小、硬決策”的,不可導(即在梯度反傳時沒法平滑計算)。
跟蹤里的關聯
跟蹤要把“這一幀的車”和“下一幀的車”對應起來,這通常用匈牙利算法等匹配方法,也屬于硬匹配,不可導。

四、方法

ViP3D利用以查詢為中心的模型設計。
被跟蹤的Agent Queries可能包含許多有用的視覺信息,包括目標的運動動力學和視覺特征。
在這里插入圖片描述

感知:
輸入:多視圖cam
輸出:跟蹤agent query集合,這包含許多視覺信息,包括agent的運動特性和視覺特征

預測:
輸入:跟蹤query和HDmap
輸出:agent的未來軌跡。
初始的3D agent query更新和丟棄,在一個query存儲庫里完成。

模型介紹:這里提取圖像用的是ResNet50和FPN,不是ViT系列。然后用相機內參和外參矩陣把3D查詢參考點映射到圖像的2D坐標上,然后將上面得到的向量作為Q,圖像特征L,經過W映射,得到三個QKV矩陣,然后計算跨注意力,最后經過一個帶層歸一化的兩層感知機FFN,更新agent query。
作者設計了兩個query來更新和移除agent,一個是匹配query,一個是空query。如果出現一個未匹配query,說明是新出現的agent,如果一個agent消失了,就分配一個未匹配且空的標簽,留待后用。對于匹配query,那就說明還在視野里,正在處理。

針對二分匹配,使用了一個query解碼器輸出每個query的中心坐標,損失函數有類別損失和坐標回歸損失,即bbox的L1損失。

Query存儲庫是一個單進單出的隊列,大小為S,僅在每個query和它的歷史狀態之間進行注意力計算,沒有多agent交互,每個query對應一個agent。

以往的軌跡預測模型分為三部分,agent編碼器,地圖編碼器和軌跡解碼器。
agent編碼器:基于查詢的檢測和跟蹤輸出被跟蹤的agent查詢,這相當于agent編碼器的輸出。因此,基于查詢的預測模塊僅由地圖編碼器和軌跡解碼器組成
地圖編碼器:采用VectorNet。
軌跡解碼器:框架級設計,基于回歸的方法(Regression-based)、基于目標的方法(Goal-based)、基于熱圖的方法(Heatmap-based)都能用。

五、訓練

模型的loss是聯合訓練的,包括前面的分類和坐標回歸loss。提出了一個新指標,EPA,端到端預測精度。數據集是nuscenes。
這里提到一個trick,就是把agent的最后一個位置作為原始值和方向作為y軸,可以使預測模型集中于未來模態預測,而不是坐標變換。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/918149.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/918149.shtml
英文地址,請注明出處:http://en.pswp.cn/news/918149.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java學習第一百零九部分——Jenkins(一)

目錄 一、前言簡介 二、核心價值與優勢 三、關鍵概念 四、下載安裝與配置 五、總結歸納概述 一、前言簡介 Jenkins 是一個開源的、基于 Java 的自動化服務器。它的核心使命是實現持續集成和持續交付。簡單來說,Jenkins 是一個強大的工具,用于自動化…

微算法科技(NASDAQ:MLGO)使用循環QSC和QKD的量子區塊鏈架構,提高交易安全性和透明度

隨著量子計算技術的快速發展,傳統區塊鏈所依賴的加密算法面臨著被破解的潛在風險。量子計算的強大計算能力可能會在未來打破現有加密體系的安全性,從而對區塊鏈中的交易數據造成威脅。為了應對這一挑戰,將量子技術與區塊鏈相結合成為了必然的…

MyBatis SQL映射與動態SQL:構建靈活高效的數據訪問層 MyBatis SQL映射與動態SQL:構建靈活高效的數據訪問層

🔄 MyBatis SQL映射與動態SQL:構建靈活高效的數據訪問層 🚀 引言:動態SQL是MyBatis框架的核心優勢之一,它讓我們能夠根據不同條件動態構建SQL語句,避免了傳統JDBC中大量的字符串拼接。本文將深入解析MyBati…

v-model雙向綁定指令

文章目錄前言v-model.lazy 延遲同步v-model.trim 去掉空格前言 v-model指令是Vue.js中實現雙向數據綁定的一種重要機制。它可以將表單控件的值與Vue.js實例中的數據進行雙向綁定,即當表單控件的值發生變化時,Vue.js實例中的數據也會隨之更新&#xff0c…

電腦IP地址是“169.254.x.x”而無法上網的原因

一、核心原因:自動私有 IP 地址(APIPA)的啟用APIPA 機制:這是 Windows 等操作系統內置的一種 “備用方案”。當電腦設置為 “自動獲取 IP 地址”(通過 DHCP 協議),但無法從路由器、光貓等網絡設…

單片機存儲區域詳解

目錄 單片機內存區域劃分 boot引腳啟動介紹 1. boot引腳的三大啟動區域介紹 1.用戶閃存(User Flash) - 最常用模式 2. 系統存儲區(System Memory) - 出廠預置Bootloader區 3. 內置SRAM啟動(RAM Boot) - 特殊調試模式 2.用戶閃存(User Flash)內存管理詳解 一、用戶閃存中…

Go語言實戰案例:簡易JSON數據返回

在現代 Web 應用中,JSON 已成為前后端通信的主流數據格式。Go 語言標準庫內置對 JSON 的良好支持,只需少量代碼就能返回結構化的 JSON 響應。本篇案例將手把手帶你完成一個「返回 JSON 數據的 HTTP 接口」,幫助你理解如何用 Go 語言實現后端服…

扣子Coze中的觸發器實現流程自動化-實現每日新聞卡片式推送

基礎知識 什么是觸發器/能做什么 Triggers 智能體設置觸發器(Triggers),使智能體在特定時間或接收到特定事件時自動執行任務。為什么需要觸發器?實操步驟 第1步:打開一個智能體編輯頁第2步:技能 - 觸發器 -…

GitCode 7月:小程序積分商城更名成長中心、「探索智能倉頡!Cangjie Magic 體驗有獎征文活動」圓滿收官、深度對話欄目持續熱播

運營情況總結 🎉 截至7月底,GitCode 這個熱鬧的開發者社區,已經聚集了 656 萬位開發者小伙伴啦! 💻 產品:小程序積分商城更名為成長中心啦,更多功能將陸續上線。 🌟 G-Star&#xff…

機器學習之支持向量機(原理)

目錄 摘要 一、概述 二、SVM算法定義 1.超平?最?間隔介紹 2.硬間隔和軟間隔 1.硬間隔分類 2. 軟間隔分類 三、SVM算法原理 1 定義輸?數據 2 線性可分?持向量機 3 SVM的計算過程與算法步驟 四、核函數 五、SVM算法api介紹 1. 核心參數說明 2. 主要方法 3. 重…

【Unity3D實例-功能-跳躍】角色跳躍

今天,我們來聊聊 Unity 里最常打交道的動作之一——角色跳躍。無論是橫版闖關還是 3D 跑酷,跳躍都是讓角色“活”起來的核心操作。在 Unity 里,幾行腳本就能讓角色一蹬而起、穩穩落地。下面,就讓我們一起把這個“彈跳感”親手做出…

react+echarts實現變化趨勢縮略圖

如上圖,實現一個縮略圖。 import React, { useState, useEffect } from react; const ParentCom () > {const [data, setData] useState({});useEffect(() > {// 這里可以做一些接口請求等操作setData({isSheng: false, value: 11.24, percentage: 2.3%, da…

C語言宏相關操作

宏 宏名稱通常都是由大寫英文字母構成的宏名稱里不可以包含空格用宏給數字起名字的時候不可以使用賦值運算符,不要自增自減可以在編寫程序的時候直接使用宏名稱替代數字,編譯器在編譯的時候會把程序里的宏替換成它所代表的數字 1. 為什么要使用宏&#x…

STM32內部讀寫FLASH

很多情況下,在STM32中寫入一些數據,在某些不可控因素下其數據無法保存。因此,解決此問題就要用到FLASH.什么是內部 Flash? Flash 是一種非易失性存儲器,STM32 的程序和常量數據就存在 Flash 中。它的關鍵特點是:特性說…

Oracle 12c + Pl/Sql windows系統下表空間創建、遷移,dmp備份導入,數據庫字符集更改

一、開發環境 操作系統:win11 Oracle版本:12c Oracle 數據庫字符集:AL32UTF8 Pl/Sql版本:14 二、表空間創建 表空間是 Oracle 數據庫中一種重要的邏輯結構,它是數據庫中數據文件的邏輯集合,用于存儲數據庫對…

GUI:QT簡介

一、什么是QT?Qt是一套跨平臺的 C 圖形用戶界面(GUI)應用程序開發框架,由挪威 Trolltech(奇趣科技)于 1991 年創建,2008 年被諾基亞收購,2012 年后由 Qt Company 負責維護。它廣泛應…

oceanbase執行execute immediate create table提示無權限

問題:OB庫4.2.5.4版本,執行到這一句的時候,報沒有權限:[rootlnob ~]# obclient -h192.168.207.28 -P2881 -ugistarlnzyob -pxxxxxx -A Welcome to the OceanBase. Commands end with ; or \g. Your OceanBase connection id is 3…

滴滴招java開發

滴滴集團 北京(崗位信息已經過jobleap.cn授權,可在csdn發布)收錄時間: 2025年08月01日職位描述 負責滴滴海外業務準入審核及反作弊相關系統的后端開發及系統維護; 職位要求 1、統招本科及以上學歷,計算機科…

深入解析基于Zookeeper分布式鎖在高并發場景下的性能優化實踐指南

深入解析基于Zookeeper分布式鎖在高并發場景下的性能優化實踐指南 在大規模分布式系統中,如何保證多個節點對同一資源的有序訪問,是提高系統穩定性與一致性的核心需求之一。Zookeeper 提供的分布式鎖機制,以其簡潔的原理和高可靠性&#xff0…

騰訊云CodeBuddy AI IDE+CloudBase AI ToolKit打造理財小助手網頁

CodeBuddy 騰訊云CodeBuddy AI IDECloudBase AI ToolKit打造理財小助手網頁 在線體驗地址:理財小助手 在線倉庫:https://cnb.cool/pickstars-2025/ai-financial-assistant 🌟 Hello,我是摘星! 🌈 在彩虹般…