理想AI Talk第二季-重點信息總結

一、TL;DR

  1. 理想為什么要做自己的基模:座艙家庭等特殊VLM場景,deepseek/openai沒有解決
  2. 理想的基模參數量:服務端-300B,VLencoder-32B/3.6B,日常工作使用-300B,VLA-4B
  3. 為什么自動駕駛可以達成:規則已知,類比機器人的自由度小,能夠做的比人好
  4. VLA如何訓練:基座模型pretrain、VLA后訓練,強化學習訓練,最后是agent
  5. 講了很多公司的理念,我覺得挺好的,但是這部分就不在本文體現了

二、AI工具的三個分級

李想將AI分為3個階段,分別是信息工具、輔助工具和生產工具,大多數人用來做信息工具使用,更進一步地,AI使用體驗會變得更好,但此時他只是一個輔助工具,比如用來點外賣,但此時我們依舊在工作8小時,仍舊需要人的參與,最后如果變成生產工具,是否在產生有效的生產力,這也是用來衡量agent的做得好壞的標準

三、構建能力的3個過程

為了改變能力和提升能力:

  1. 這4個步驟是極簡的人類最佳實踐
  2. 理想在做VLA/李飛飛等在做研究都是這樣

四、VLA為什么要做和怎么做

4.1 為什么要做

輔助駕駛需要把視覺和語料融合進去,openai/deepseek做好了Language,但是他們沒有這些VL的數據,也沒有這些場景和需求,因此也不會去解決這些問題,因此只能理想自己做

4.2 規模多大

理想同學用的是300B的模型,車端VLA是4B的模型,輔助駕駛的VL是32B/3.6B的模型。平產工作也是用的300B的模型

4.3 輔助駕駛的進化過程

第一階段(rule):規則算法,整個模型規模只有幾百萬的參數量,因此加不同的規則,就像有軌電車

第二階段((E2E+VLM):像人類的哺乳動物的智能運作的一種方式,動物園的猴子學習人類的各種行為去開車,但他對物理世界不理解,他對大部分的泛化性能是沒問題的,但是特別復雜的場景搞不定

第三階段(VLA):用3D視覺+2D視覺,有自己的Language和大腦去理解整個物理世界,具備自己的COT。真正的去執行這些理解

4.4 VLA如何訓練

第一階段:32B的基座VL 模型,與之前的差異是什么,需要放更多的視覺token,包括3Dtoken和更高清的2D token,放入駕駛的Language和視覺的聯合語料,將對高精地圖的理解也放進去,整體數據是vision的數據、Language的數據和VIsion/Language聯合的數據,最后蒸餾下來的是3.6B的8個MOE車端模型

第二階段是后訓練,將其變為一個VLA模型,后訓練仍然是一種強化學習,此時將模型規模擴展到4B左右,一方面是VLA,能夠直接從inputt到輸出,有著比較短的cot,另外做完action后,還會做一個4-8秒的diffusion軌跡和環境預測,特別像人去駕校學開車的過程

第三階段:做強化訓練,第一部分先做RLHF,帶有人類反饋的強化學習,除了遵守交通規則以外,還需要增加大家的駕駛習慣,開的跟大家一樣好,第二部分是純粹的強化學習,拿著RL放在世界模型里面學習,目的就是比人開的更好,有3類的訓練要求,G值判斷舒適性的發聵、碰撞的反饋、交通事故的反饋,用這三個反饋來做強化學習

這三個要求完成以后,她就跟人類的駕駛習慣完全一樣;像人類一樣學習駕駛知識,這個是預訓練,后訓練相當于去駕校認真的學習開車,第三個環節相當于到社會上學開車和人類和社會環境做對齊。最后面, 人類通過自然語言的方式與VLA進行溝通,不再需要經過云端,如果是復雜的指令,則需要通過云端32B的模型先去 理解交通的一切,再交給VLA進行處理。他會像人類司機一樣開車并且理解用戶的問題,這個通過Agent來進行實現

效果如下所示:

五、為什么輔助駕駛可以做成

5.1 做成的原因

第一、交通領域是最首先講清楚規則的,雖然復雜但是具備確定性,一輛車上路后基本上路線是確定的

第二、是車的控制,其實只具備3個tof,左右、前后和輕微的旋轉,機器人上來就40多個自由度,挑戰更大

第三:我們進行模仿學習是比較方便的,還能做更好的強化學習,交通規則、是否碰撞、舒適性這些是能夠被表達出來的,因此能夠進行更好的強化學習

5.2 為什么是理想做成

什么難度大:數據獲取難度最大,是vision和action,車上裝門了傳感器可以收集到世界數據,但是需要人來開車收集到action數據

為什么其他公司做不了:

其它車企沒有建立預訓練的基模能力、后訓練和強化學習的能力,強化學習的體系建立如何和人類司機的方法對齊,這些能力的建設決定輔助駕駛能否做成、

5.3 如何保證輔助駕駛安全

對齊來解決與人類一致性的問題

模型能力越強,胡來的可能性就越大,一個公司也是這樣的,公司做大以后,需要職業性來進行約束。只需要雇傭職業司機而非賽車手了

端到端的仿真和快速閉環問題的能力

模型是一個黑盒子,做了整個物理世界的仿真,2萬公里的費用是17-20萬左右,現在是4k,基本上都是fpu的渲染,解決問題的效率提升很多,相同的問題復現幾乎沒有可能,但是仿真世界再世界模型里面是可以做到的。3天可以解決一個cornercase

超級對其團隊。來保證安全的駕駛,建了 100 多人的團隊,就像給 AI 司機上 “職業素養課”,教它遵守交通規則,養成好的駕駛習慣 。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81420.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81420.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81420.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

TensorRT

TensorRT 下載 TensorRT 7.1.3.4 TAR壓縮包,解壓到安裝目錄: tar xzvf TensorRT-7.1.3.4.Ubuntu-16.04.x86_64-gnu.cuda-11.0.cudnn8.0.tar.gz 添加 TensorRT lib 到環境變量: gedit ~/.bashrc # 添加 export LD_LIBRARY_PATH$LD_LIBRARY_PAT…

【NGINX】 -9 nginx + tomcat實現的多級反向代理

文章目錄 1、tomcat的安裝 (centos版本)1.1 安裝Java依賴環境1.2 安裝tomcat 2、tomcat的虛擬主機的配置2.1 配置多級目錄 3、利用nginx的反向代理實現將轉發指向一個虛擬機3.1 nginx服務器的配置3.2 客戶端配置 4、 反向多級代理代理服務器操作nginx 1 服務器nginx 2 服務器to…

基于requests_html的python爬蟲

前言:今天介紹一個相對性能更高的爬蟲庫requests_html,會不會感覺和requests有點聯系?是的。為什么開始不直接介紹呢?因為我覺得requests是最基本入門的東西,并且在學習過程中也能學到很多東西。我的python老師在介紹這…

【架構篇】架構類型解釋

架構設計的本質:從模糊概念到系統化思維 摘要 “架構”是系統設計的靈魂,但許多人對它的理解仍停留在抽象層面。本文系統解析架構的8大核心維度,結合設計原則、案例與誤區分析,幫助開發者建立從戰略到落地的完整認知框架。 一、架…

用Python繪制夢幻星空

用Python繪制夢幻星空 在這篇教程中,我們將學習如何使用Python創建一個美麗的星空場景。我們將使用Python的圖形庫Pygame和隨機庫來創建閃爍的星星、流星和月亮,打造一個動態的夜空效果。 項目概述 我們將實現以下功能: 創建深藍色的夜…

PyTorch循環神經網絡(Pytotch)

文章目錄 循環神經網絡(RNN)簡單的循環神經網絡長短期記憶網絡(LSTM)門控循環單元(GRU) 循環神經網絡(RNN) 循環神經網絡(RecurrentNeuralNetwork,RNN&#…

用算術右移實現邏輯右移及用邏輯右移實現算術右移

函數srl()用算術右移實現邏輯右移,函數sra()用邏輯右移實現算術右移。 程序代碼 int sra(int x,int k); unsigned int srl(unsigned int x, int k);void main() {int rx1,k,x1;unsigned int rx2,x2;k3;x10x8777;x20x8777;rx1sra(x1, k);rx2srl(x2, k);while(1); }…

pojo層、dao層、service層、controller層的作用

在Java Web開發中,常見的分層架構(如Spring Boot項目)通常包含POJO層、DAO層、Service層和Controller層,各層職責明確,協同工作。以下是各層的作用及相互關系: 1. POJO層(Model/Entity層&#…

【Linux網絡】五種IO模型與阻塞IO

IO 在Linux網絡環境里,IO(Input/Output)指的是網絡數據在系統與外部網絡(像其他設備、服務器或者客戶端)之間進行傳輸的過程。 它是網絡編程和系統性能優化的核心內容。 IO :INPUT和OUTPUT(站…

入門OpenTelemetry——應用自動埋點

埋點 什么是埋點 埋點,本質就是在你的應用程序里,在重要位置插入采集代碼,比如: 收集請求開始和結束的時間收集數據庫查詢時間收集函數調用鏈路信息收集異常信息 這些埋點數據(Trace、Metrics、Logs)被…

大數據場景下數據導出的架構演進與EasyExcel實戰方案

一、引言:數據導出的演進驅動力 在數字化時代,數據導出功能已成為企業數據服務的基礎能力。隨著數據規模從GB級向TB級甚至PB級發展,傳統導出方案面臨三大核心挑戰: ?數據規模爆炸?:單次導出數據量從萬級到億級的增長…

拓展運算符與數組解構賦值的區別

拓展運算符與數組解構賦值是ES6中用于處理數組的兩種不同的特性,它們有以下區別: 概念與作用 ? 拓展運算符:主要用于將數組展開成一系列獨立的元素,或者將多個數組合并為一個數組,以及在函數調用時將數組作為可變參…

2025年全國青少年信息素養大賽初賽真題(算法創意實踐挑戰賽C++初中組:文末附答案)

2025年全國青少年信息素養大賽初賽真題(算法創意實踐挑戰賽C++初中組:文末附答案) 一、單項選擇題(每題 5 分) C++ 程序流程控制的基本結構不包括以下哪項? A. 分支結構 B. 數據結構 C. 循環結構 D. 順序結構 以下哪段代碼能將數組 int a[4] = {2, 4, 6, 8}; 的所有元素變…

計算機視覺與深度學習 | Python實現EMD-CNN-LSTM時間序列預測(完整源碼、數據、公式)

EMD-CNN-LSTM 1. 環境準備2. 數據生成(示例數據)3. EMD分解4. 數據預處理5. CNN-LSTM模型定義6. 模型訓練7. 預測與重構8. 性能評估核心公式說明1. 經驗模態分解(EMD)2. CNN-LSTM混合模型參數調優建議擴展方向典型輸出示例以下是使用Python實現EMD-CNN-LSTM時間序列預測的完…

React 19中useContext不需要Provider了。

文章目錄 前言一、React 19中useContext移除了Provider&#xff1f;二、使用步驟總結 前言 在 React 19 中&#xff0c;useContext 的使用方式有所更新。開發者現在可以直接使用 作為提供者&#xff0c;而不再需要使用 <Context.Provider>。這一變化簡化了代碼結構&…

單片機-STM32部分:14、SPI

飛書文檔https://x509p6c8to.feishu.cn/wiki/VYYnwOc9Zi6ibFk36lYcPQdRnlf 什么是SPI SPI 是英語Serial Peripheral interface的縮寫&#xff0c;顧名思義就是串行外圍設備接口。是Motorola(摩托羅拉)首先在其MC68HCXX系列處理器上定義的。 SPI&#xff0c;是一種高速的&…

Vue 3 動態 ref 的使用方式(表格)

一、問題描述 先給大家簡單介紹一下問題背景。我正在開發的項目中&#xff0c;有一個表格組件&#xff0c;其中一列是分鏡描述&#xff0c;需要支持視頻上傳功能。用戶可以為每一行的分鏡描述上傳對應的視頻示例。然而&#xff0c;在實現過程中&#xff0c;出現了一個嚴重的問…

構建 TypoView:一個富文本樣式預覽工具的全流程記錄

我正在參加CodeBuddy「首席試玩官」內容創作大賽&#xff0c;本文所使用的 CodeBuddy 免費下載鏈接&#xff1a;騰訊云代碼助手 CodeBuddy - AI 時代的智能編程伙伴 在一次和 CodeBuddy 的日常交流中&#xff0c;我提出了一個構想&#xff1a;能不能幫我從零構建一個富文本樣式…

AI:OpenAI論壇分享—《AI重塑未來:技術、經濟與戰略》

AI&#xff1a;OpenAI論壇分享—《AI重塑未來&#xff1a;技術、經濟與戰略》 導讀&#xff1a;2025年4月24日&#xff0c;OpenAI論壇全面探討了 AI 的發展趨勢、技術范式、地緣政治影響以及對經濟和社會的廣泛影響。強調了 AI 的通用性、可擴展性和高級推理能力&#xff0c;以…

Bash fork 炸彈 —— :(){ :|: };:

&#x1f9e0; 什么是 Fork 炸彈&#xff1f; Fork 炸彈是一種拒絕服務&#xff08;DoS&#xff09;攻擊技術&#xff0c;利用操作系統的 fork() 系統調用不斷創建新進程&#xff0c;直到系統資源&#xff08;如進程表、CPU、內存&#xff09;被耗盡&#xff0c;從而使系統無法…