背景信息
團隊:百度
代碼:https://github.com/bdvisl/DriveInsight
論文思想簡述:這篇論文并不是提出SOTA模型,而是提出了一些評估模型的方法。
目前已有的分析方法
- 大語言模型。VAQ來提供解釋性,比如DriveVLM,問題是存在inaccurate explanations(這個問題怎么證明?)
- 因果注意力模塊,比如NEAT(Neat: Neural attention fields for end-to-end
autonomous driving,2021, ICCV)(我沒看過,不懂) - 反事實解釋conterfactual explanation。比如Octet(Octet:
Object-aware counterfactual explanations,2023,CVPR)(我沒看過,不懂) - 輔助任務auxiliary tasks。輔助輸出目標檢測、語義分割、障礙物預測等。
- 因果鑒定casual identification。多種輸入可能導致因果迷惑casual confusion,PlanTF等在嘗試解決。
本文先定性分析因果因素causal factors,然后定量分析每個因素的貢獻。
模型評估方法
先自己搭了一個模型
- image encoder -> Resnet with fetrure pyramid network
- lidar encoder -> 3D sparse convolution + hourglass vonvolution
- multi-modal fusion -> fuse image and lidar input -> 2D convolution + Squeeze and Excitation blocks -> BEV_t
- temporal fusion -> 多個歷史時刻下BEV -> convolution + SE blocks
- planning decoder -> fused BEV + ego vehicle status + environment(HD, obs, traffic lights, stop signs) + navigation(command, target point, routing)
模型結果評估
- RC, route completion
- IS, infration score
- DS, driving score,上述之乘積
模型因果評估
消融實驗
BEV,routing,目標位置必不可少(為什么模型要target point呢?這是不是提示太明顯了)
歷史速度信息可以去掉,沒啥影響
反事實干涉conterfactual intervention
- 如果輸入錯誤的routing和目標位置,模型是會出錯的the behavior of the ego vehicle can be successfully intervened;
- 當前速度有很大影響。很無聊,肯定會學錯的;
- Map沒啥影響,因為BEV已經給足夠的信息了;
- Traffic light有很大影響。廢話。
可視化分析
- 不同token的梯度,反應當前的關注程度(為啥得是梯度呢?)
- 不同head中,不同token的梯度,反應不同head對信息的傾向程度preferences
- 激活地圖可視化activation map visualization。(看不明白為什么要對p求偏導)。反映對場景中不同區域的關注程度。
評價
- 有些方法早已經在用了(消融實驗)
- 有些點很小(反事實干涉,名字比較高大上)
- 可視化分析的充分性如何證明?