Vibe Coding 概念提出者 AndrejKarpathy 談強化學習。

在預訓練時代,關鍵在于互聯網文本。你最需要的是一大批量、多樣化且高質量的互聯網文檔,供模型從中學習。

在監督微調(SFT)時代,核心則是對話數據。人們雇傭合同工人為問題撰寫答案,類似于你在 Stack Overflow 或 Quora 上看到的內容,但專門針對大語言模型(LLM)的應用場景進行優化。

我認為以上兩個階段都不會消失,但在當前的強化學習時代,關鍵要素變成了“環境”(environments)。與前兩者不同,環境能讓大語言模型真正地進行交互——采取行動、觀察結果等。這意味著我們有望超越簡單的“統計專家行為模仿”,實現更深層次的學習。這些環境既可用于模型訓練,也可用于模型評估。但和之前類似,現在核心的挑戰在于:我們需要大量、多樣化且高質量的環境,作為 LLM 練習的“習題集”。

從某種意義上說,這讓我想起了 OpenAI 最早的項目——Gym。那正是一個旨在構建大量統一格式環境的框架,只不過當時遠早于大語言模型的興起,因此那些環境大多是當時簡單的學術控制任務,比如倒立擺(cartpole)、ATARI 游戲等。而 PrimeIntellect 的“環境中心”(environments hub),以及其 GitHub 上的 verifiers 倉庫,則構建了一個面向現代 LLM 的升級版框架,這是一個非常出色的嘗試和構想。今年早些時候,我也曾提議有人來構建類似的東西。

環境的一個重要特性是:一旦框架的基本結構搭建完成,原則上社區和產業界就可以在不同領域并行開發,這令人非常振奮。

最后一點思考——就個人而言,從長期來看,我非常看好“環境”以及“具身智能體式交互”(agentic interactions)的發展前景,但我對“強化學習”(reinforcement learning, RL)本身持謹慎態度(看跌)。

我認為獎勵函數(reward functions)存在嚴重問題,而且我相信人類在學習時并不主要依賴強化學習(也許在某些運動控制類任務中會用到,但在智力型問題解決中并非如此)。人類使用的是更強大、更高效的其他學習范式,而這些范式尚未被充分發明或規模化應用。

不過,目前已有一些初步的設想和雛形(例如,“系統提示學習”這一概念,即把模型更新從權重調整轉移到提示詞/上下文本身,之后可選擇性地將知識“蒸餾”回權重中——這個過程有點像睡眠對大腦的作用)。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/97191.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/97191.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/97191.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OSI模型和TCP/IP模型區別是什么

問題OSI模型和TCP/IP模型區別是什么我的回答OSI和TCP/IP這兩個協議棧有幾個主要區別:首先,層次結構不同。OSI是七層模型:物理層、數據鏈路層、網絡層、傳輸層、會話層、表示層和應用層。而TCP/IP是四層模型:數據鏈路層、網絡層、傳…

ros2與gazebo harmonic機械臂仿真項目Moveit2YoloObb的優化

文章目錄 關于項目RVIZ控制Gazebo Harmonic仿真機械臂GraphExecuter創建流程并通過Yolo算法抓取螺栓 關于項目 本文介紹ros2與gazebo harmonic機械臂仿真項目Moveit2YoloObb優化的內容,具體的代碼細節就不贅述了,主要還是演示效果,包括RVIZ控…

Linux 系統調優與CPU-IO-網絡內核參數調優

1. Linux系統調優1.1 安裝工具包在開始監控前,需要確保系統已安裝以下工具包,它們是后續操作的基礎:sysstat:包含 mpstat、iostat、sar 等核心統計工具iotop:專門監控磁盤 I/O 的進程級工具nethogs:按進程查…

laravel學習并連接mysql數據庫,給本地vue項目提供接口

下載laravel laravel下載地址phpstudy_pro\WWW\laravel.env文件 DB_CONNECTIONmysql DB_HOST127.0.0.1 DB_PORT3306 DB_DATABASEclgl //你的數據庫名稱 DB_USERNAMEroot //你的賬號 DB_PASSWORDroot //你的密碼安裝 Laravel CORS 包 composer require fruitcake/laravel-c…

Mybatis 與 Springboot 集成過程詳解

Mybatis 與 Springboot 集成過程詳解一. 核心概念與優勢二.Mybatis 核心類簡介1.MybatisAutoConfiguration2.MapperScans3.MapperScannerRegistrar4.MapperFactoryBean5.Configuration6.MapperRegistry7.MapperProxy 與 MapperProxyFactory7.1核心定位與職責7.22. ??MapperPr…

prometheus alertmanager 對接飛書

alertmanager 直接配置 飛書 的 webhook ,發現并不滿足飛書接口的 json 格式。報錯如下levelerror ts2025-08-28T04:57:02.734Z callerdispatch.go:310 componentdispatcher msg"Notify for alerts failed" num_alerts23 err"prometheusalert-webhoo…

『專利好藥用力心腦血管健康』——愛上古中醫(28)(健康生活是coder抒寫優質代碼的前提條件——《黃帝內經》伴讀學習紀要)

心臟血管三通康,古時丸藥精益裝。 筆記模板由python腳本于2025-08-26 18:25:03創建,本篇筆記適合喜歡日常保健養生知識的coder翻閱。 學習的細節是歡悅的歷程 博客的核心價值:在于輸出思考與經驗,而不僅僅是知識的簡單復述。 Pyth…

在 .NET 8.0 中實現 JWT 刷新令牌

介紹在 Web 開發領域,安全是重中之重。JSON Web Tokens (JWT) 已成為在各方之間安全傳輸信息的熱門選擇。然而,在 JWT 過期后,如何維護用戶會話并避免頻繁登錄至關重要。這正是 JWT 刷新令牌應運而生的地方。在本文中,我們將指導您…

深入解析 git push 命令

1. 基礎語法 git push 的基本語法如下: git push <遠程倉庫名> <本地分支名>:<遠程分支名> [選項]<遠程倉庫名>: 通常是 origin(默認的遠程倉庫名稱)。 <本地分支名>:<遠程分支名>: 指定要推送的本地分支以及目標遠程分支。如果省略遠…

UI彈出動畫

簡介的UI彈出動畫 使用方式很簡單 掛載到需要彈出的目標 即可 using UnityEngine; using DG.Tweening; using Unity.VisualScripting;/// <summary>/// 簡潔的UI動畫腳本/// 直接掛載到UI組件上&#xff0c;調用Play()播放縮放彈出動畫/// </summary>public class …

PostgreSQL診斷系列(6/6):配置項全景解析——打造你的專屬優化清單

&#x1f517; 作為《PostgreSQL診斷系列》的收官之作&#xff0c;今天我們系統梳理 postgresql.conf 中的核心參數&#xff0c;將前5篇的“診斷”轉化為“調優”&#xff0c;打造一套生產環境專屬的配置模板。 你是否&#xff1a; 不知道哪些參數該調&#xff1f;害怕調錯導致…

Flink Slot 不足導致任務Pending修復方案

當前有3個虛擬機節點&#xff0c;每個節點配置的slot節點數量是4&#xff0c;${FLINK_HOME}/conf/flink-conf.yaml 關于slot的配置如下&#xff1a; # The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline. taskmanager.numberOfTas…

亞馬遜合規風控升級:詳情頁排查與多賬號運營安全構建

2025年亞馬遜掀起的大規模掃號行動&#xff0c;聚焦商品詳情頁合規性審查&#xff0c;標志著跨境電商合規監管進入嚴風控時代&#xff0c;此次行動以關鍵詞規范與定價誠信為核心&#xff0c;大量賣家因內容違規遭遇賬號停用&#xff0c;對于賣家而言&#xff0c;構建系統化的合…

FISCO-BCOS-Python 模板

基于Python-SDK的FISCO BCOS區塊鏈HelloWorld模板&#xff0c;提供了簡單的問候語設置和查詢功能。本項目采用現代Python開發實踐&#xff0c;包含完整的配置管理、測試框架和項目結構。 快速開始 倉庫地址&#xff1a;git clone https://gitee.com/atanycosts/python-fisco-te…

移動端(微信等)使用 vConsole調試console

本文介紹了一種在移動端真機上進行調試的方法——使用VConsole。通過簡單的安裝步驟和代碼配置&#xff0c;開發者可以在移動端直接查看console.log輸出&#xff0c;極大提升了調試效率。 摘要生成于 C知道 &#xff0c;由 DeepSeek-R1 滿血版支持&#xff0c; 前往體驗 >作…

云計算資源分配問題

這里寫目錄標題一、云計算資源的基本類型二、資源分配的目標三、資源分配的方式四、資源分配的技術與工具五、挑戰與優化方向六、實際應用場景舉例總結云計算資源分配是指在云計算環境中&#xff0c;根據用戶需求、應用程序性能要求以及系統整體效率&#xff0c;將計算、存儲、…

深度學習之第二課PyTorch與CUDA的安裝

目錄 簡介 一、PyTorch 與 CUDA 的核心作用 1.PyTorch 2.CUDA 二、CUDA的安裝 1.查看 2.下載安裝 3.檢查是否安裝成功 三、PyTorch的安裝 1.GPU版本安裝 2.CPU版本安裝 簡介 在深度學習的實踐旅程中&#xff0c;搭建穩定且高效的開發環境是一切實驗與項目的基礎&…

Ubuntu22.04 安裝和使用標注工具labelImg

文章目錄一、LabelImg 的安裝及配置1. 安裝2. 配置二、使用1. 基礎操作介紹2. 創建自定義標簽2.1 修改 predefined_classes.txt2.2 直接軟件界面新增3. 圖像標注3.1 重命名排序3.2 標注3.2 voc2yolo 格式轉換3.3 視頻轉圖片Yolo系列 —— Ubuntu 安裝和使用標注工具 labelImgYo…

Jenkins與Docker搭建CI/CD流水線實戰指南 (自動化測試與部署)

更多云服務器知識&#xff0c;盡在hostol.com你是否已經厭倦了那個“人肉”部署的重復循環&#xff1f;每一次 git push 之后&#xff0c;都像是一個莊嚴的儀式&#xff0c;你必須虔誠地打開SSH&#xff0c;小心翼翼地敲下一連串的 git pull, npm install, docker build, docke…

【數據可視化-100】使用 Pyecharts 繪制人口遷徙圖:步驟與數據組織形式

&#x1f9d1; 博主簡介&#xff1a;曾任某智慧城市類企業算法總監&#xff0c;目前在美國市場的物流公司從事高級算法工程師一職&#xff0c;深耕人工智能領域&#xff0c;精通python數據挖掘、可視化、機器學習等&#xff0c;發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN…