理想AI Talk第二季-重點信息總結

一、TL；DR

理想為什么要做自己的基模：座艙家庭等特殊VLM場景，deepseek/openai沒有解決
理想的基模參數量：服務端-300B，VLencoder-32B/3.6B，日常工作使用-300B，VLA-4B
為什么自動駕駛可以達成：規則已知，類比機器人的自由度小，能夠做的比人好
VLA如何訓練：基座模型pretrain、VLA后訓練，強化學習訓練，最后是agent
講了很多公司的理念，我覺得挺好的，但是這部分就不在本文體現了

二、AI工具的三個分級

李想將AI分為3個階段，分別是信息工具、輔助工具和生產工具，大多數人用來做信息工具使用，更進一步地，AI使用體驗會變得更好，但此時他只是一個輔助工具，比如用來點外賣，但此時我們依舊在工作8小時，仍舊需要人的參與，最后如果變成生產工具，是否在產生有效的生產力，這也是用來衡量agent的做得好壞的標準

三、構建能力的3個過程

為了改變能力和提升能力：

這4個步驟是極簡的人類最佳實踐
理想在做VLA/李飛飛等在做研究都是這樣

四、VLA為什么要做和怎么做

4.1 為什么要做

輔助駕駛需要把視覺和語料融合進去，openai/deepseek做好了Language，但是他們沒有這些VL的數據，也沒有這些場景和需求，因此也不會去解決這些問題，因此只能理想自己做

4.2 規模多大

理想同學用的是300B的模型，車端VLA是4B的模型，輔助駕駛的VL是32B/3.6B的模型。平產工作也是用的300B的模型

4.3 輔助駕駛的進化過程

第一階段（rule）：規則算法，整個模型規模只有幾百萬的參數量，因此加不同的規則，就像有軌電車

第二階段（(E2E+VLM）：像人類的哺乳動物的智能運作的一種方式，動物園的猴子學習人類的各種行為去開車，但他對物理世界不理解，他對大部分的泛化性能是沒問題的，但是特別復雜的場景搞不定

第三階段（VLA）：用3D視覺+2D視覺，有自己的Language和大腦去理解整個物理世界，具備自己的COT。真正的去執行這些理解

4.4 VLA如何訓練

第一階段：32B的基座VL 模型，與之前的差異是什么，需要放更多的視覺token，包括3Dtoken和更高清的2D token，放入駕駛的Language和視覺的聯合語料，將對高精地圖的理解也放進去，整體數據是vision的數據、Language的數據和VIsion/Language聯合的數據，最后蒸餾下來的是3.6B的8個MOE車端模型

第二階段是后訓練，將其變為一個VLA模型，后訓練仍然是一種強化學習，此時將模型規模擴展到4B左右，一方面是VLA，能夠直接從inputt到輸出，有著比較短的cot，另外做完action后，還會做一個4-8秒的diffusion軌跡和環境預測，特別像人去駕校學開車的過程

第三階段：做強化訓練，第一部分先做RLHF，帶有人類反饋的強化學習，除了遵守交通規則以外，還需要增加大家的駕駛習慣，開的跟大家一樣好，第二部分是純粹的強化學習，拿著RL放在世界模型里面學習，目的就是比人開的更好，有3類的訓練要求，G值判斷舒適性的發聵、碰撞的反饋、交通事故的反饋，用這三個反饋來做強化學習

這三個要求完成以后，她就跟人類的駕駛習慣完全一樣；像人類一樣學習駕駛知識，這個是預訓練，后訓練相當于去駕校認真的學習開車，第三個環節相當于到社會上學開車和人類和社會環境做對齊。最后面，人類通過自然語言的方式與VLA進行溝通，不再需要經過云端，如果是復雜的指令，則需要通過云端32B的模型先去理解交通的一切，再交給VLA進行處理。他會像人類司機一樣開車并且理解用戶的問題，這個通過Agent來進行實現

效果如下所示：

五、為什么輔助駕駛可以做成

5.1 做成的原因

第一、交通領域是最首先講清楚規則的，雖然復雜但是具備確定性，一輛車上路后基本上路線是確定的

第二、是車的控制，其實只具備3個tof，左右、前后和輕微的旋轉，機器人上來就40多個自由度，挑戰更大

第三：我們進行模仿學習是比較方便的，還能做更好的強化學習，交通規則、是否碰撞、舒適性這些是能夠被表達出來的，因此能夠進行更好的強化學習

5.2 為什么是理想做成

什么難度大：數據獲取難度最大，是vision和action，車上裝門了傳感器可以收集到世界數據，但是需要人來開車收集到action數據

為什么其他公司做不了：

其它車企沒有建立預訓練的基模能力、后訓練和強化學習的能力，強化學習的體系建立如何和人類司機的方法對齊，這些能力的建設決定輔助駕駛能否做成、

5.3 如何保證輔助駕駛安全

對齊來解決與人類一致性的問題

模型能力越強，胡來的可能性就越大，一個公司也是這樣的，公司做大以后，需要職業性來進行約束。只需要雇傭職業司機而非賽車手了

端到端的仿真和快速閉環問題的能力

模型是一個黑盒子，做了整個物理世界的仿真，2萬公里的費用是17-20萬左右，現在是4k，基本上都是fpu的渲染，解決問題的效率提升很多，相同的問題復現幾乎沒有可能，但是仿真世界再世界模型里面是可以做到的。3天可以解決一個cornercase

超級對其團隊。來保證安全的駕駛，建了 100 多人的團隊，就像給 AI 司機上 “職業素養課”，教它遵守交通規則，養成好的駕駛習慣。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/81420.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/81420.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/81420.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！