[Andrej Karpathy_2] vibe coding | 大型語言模型的1960年代 | 自主性滑塊

Hugging Face的Tom Wolf分享了一段我非常喜歡的視頻,這些孩子正在進行氛圍編程。

我覺得這是一個非常治愈的視頻,我愛這個視頻。(they grow up "knowing" they can build anything 😭greatness)

未來是美好的

前文:[Andrej Karpathy] 大型語言模型作為新型操作系統

Perplexity:另一個成功的LLM應用案例

再舉一個相當成功的大型語言模型應用的例子——Perplexity。

它也具有我剛才在Cursor中指出的一些非常相似的特性。它打包了大量信息,協調了多個大型語言模型,并且有一個GUI允許您審計其部分工作。

例如,它會引用來源,您可以想象檢查它們,它還有一個自主性滑塊。

您可以進行快速搜索,也可以進行研究,或者進行深度研究,并在10分鐘后回來。所有這些都是您賦予工具的不同程度的自主性。

Perplexity通過結合搜索引擎和大型語言模型的能力,創造了一種新型的信息獲取體驗。

不僅提供答案,還提供來源和背景,使用戶能夠驗證信息的準確性,同時根據需要調整搜索的深度和廣度。


部分自主軟件的未來

軟件的自主化轉變

我想我的問題是,我覺得很多軟件都會變得部分自主。

我正在思考這會是什么樣子,對于你們中許多維護產品和服務的人來說,你們將如何使你們的產品和服務部分自主化?

關鍵設計問題

大型語言模型能否看到人類能看到的一切?大型語言模型能否以人類能做到的所有方式行動?人類能否監督并參與到這項活動中,因為這些系統是易出錯的,尚未完美。

界面的重新設計

在Photoshop中,差異會是什么樣子?現在許多傳統軟件都有各種開關和各種東西,這些都是為人類設計的,所有這些都必須改變,并變得對大型語言模型可訪問。

人機協作:生成與驗證循環

workflow


我想強調的是,對于許多大型語言模型應用,我不確定它是否得到了應有的關注,那就是我們現在正在與人工智能合作,通常它們負責生成,而我們人類負責驗證。

讓這個循環盡可能快地進行符合我們的利益,這樣我們就能完成大量工作。

我認為有兩種主要方式可以做到這一點:

第一,

  • 您可以大大加快驗證速度。我認為GUI在這方面極其重要,因為GUI利用了我們大腦中的計算機視覺GPU。
  • 閱讀文本是費力的,而且不好玩,但看東西很有趣,它就像一條通往大腦的高速公路。

第二,

  • 我想說的是,我們必須"牽著"(leash)人工智能。
  • 我認為很多人對AI Agent過于興奮,但對我來說,收到一個包含10,000行代碼的差異(diff),這并沒有什么用。
  • 我仍然是瓶頸,即使這10,000行代碼是瞬間生成的,我仍然需要確保它沒有引入錯誤,并且它正在做正確的事情

人工智能輔助編程的最佳實踐

小增量工作

  • 在我自己的工作中,我總是害怕出現過大的差異。我總是以小的增量塊進行操作,我想確保一切都良好,我想讓這個循環非常非常快地進行。

具體明確的提示

  • 如果您的提示模糊不清,那么人工智能可能無法完全按照您的意愿行事,在這種情況下,驗證將失敗。如果驗證失敗,您將不得不重新開始。因此,花更多時間使您的提示更具體會更有意義。

快速驗證循環

  • 我傾向于處理小塊的、單一的具體事物。我認為你們中的許多人可能正在開發與大型語言模型協作的類似方式,使驗證過程盡可能高效。

AI輔助教育:課程創建與交付

在我自己的工作中,我也對人工智能和大型語言模型背景下的教育是什么樣子很感興趣。

  • 我認為我大量思考的是如何"牽著"人工智能。我不認為僅僅去聊天并說"嘿,教我物理"就能奏效。
  • 我認為這行不通,因為人工智能會迷失方向。

所以對我來說,這實際上是兩個獨立的應用程序。

例如,有一個應用程序是為教師創建課程的,然后有一個應用程序是接收課程并將其提供給學生的。在這兩種情況下,我們現在都有一個中間產物——課程,它是可審計的,我們可以確保它良好,我們可以確保它一致。

這是"牽著"人工智能的一種方式,我認為它成功的可能性要大得多,而且人工智能不會迷失方向。

通過將過程分為課程創建和課程交付兩個獨立的步驟,我們可以在每個階段應用適當的控制和驗證,確保教育內容的質量和一致性。


自動駕駛:部分自主性的先例

我想提及的另一個類比是,我對部分自主性并不陌生,我在特斯拉為此工作了五年。

自動駕駛也是一個部分自主性產品,它具有許多特性,例如儀表盤上就有自動駕駛的GUI,它會顯示神經網絡看到了什么。我們也有自主性滑塊,在我任職期間,我們為用戶完成了越來越多的自主任務。

我第一次駕駛自動駕駛汽車是在2013年,我有一個在Waymo工作的朋友,他邀請我一起在帕洛阿爾托開車。

我們坐上那輛車,在帕洛阿爾托的高速公路和街道上行駛了大約30分鐘,整個過程非常完美,沒有任何人工干預。那是2013年,距今已有12年了(amazing😮)。這讓我很震驚,因為當時我有了這次完美的駕駛體驗,完美的演示,我覺得自動駕駛即將到來。

但12年過去了,我們仍在研究自主性,我們仍在研究駕駛代理。即使現在,我們也沒有真正解決這個問題。

因此,我認為軟件確實很棘手,就像駕駛一樣棘手。

所以當我看到"2025年是Agent之年"這樣的說法時,我非常擔心。我覺得,這是"Agent的十年",這將需要相當長的時間。我們需要人類參與其中,我們需要謹慎行事,這是軟件,我們應該認真對待。


鋼鐵俠類比:增強與代理

我經常思考的另一個類比是鋼鐵俠戰衣。我一直很喜歡鋼鐵俠,我認為它在很多方面都非常準確地預示了技術將如何發展。

  • 我喜歡鋼鐵俠戰衣的原因是,它既是一種增強,托尼·斯塔克可以駕駛它,它也是一個Agent。在一些電影中,鋼鐵俠戰衣非常自主,可以自行飛行并找到托尼等等。
  • 所以,這就是自主性滑塊。我們可以構建增強功能也可以構建代理,我們希望兩者兼顧。
  • 但在現階段,我認為,在使用易出錯的大型語言模型時,您應該更多地構建鋼鐵俠戰衣,而不是鋼鐵俠機器人。

也就是說,少一些炫目的自主Agent演示,多一些部分自主性產品。

這些產品擁有定制的圖形用戶界面和用戶體驗設計,目的是讓人類進行生成和驗證的循環盡可能快,但我們并沒有忽視原則上自動化這項工作的可能性,并且您的產品中應該有一個自主性滑塊。

(AI 在發展,我們的軟件和數據庫也應該和 AI 接軌化,促進智能化的發展)


氛圍編程:人人都是程序員

現在我想稍微轉換一下話題,談談另一個我認為非常獨特的維度。

  • 不僅出現了一種新的編程語言,它允許軟件實現自主性,而且正如我所提到的,它是用英語編程的,這是一種自然的界面。
  • 突然之間,每個人都成了程序員,因為每個人都會說自然語言,比如英語。

這對我來說是極其看好和非常有趣的,而且也是前所未有的。過去,您需要花費五到十年的時間學習才能在軟件領域有所作為,但現在情況不再如此。我不知道有沒有人聽說過"氛圍編程"(vibe coding),這條推文就是它的起源,但我聽說它現在已經成為一個主要的梗。

關于這個有一個有趣的故事:我玩Twitter大概有15年了,但直到現在我仍然不知道哪條推文會火,哪條會默默無聞。

  • 我當時以為這條推文會是后者,我不知道,它只是我洗澡時的一些想法,但它卻成了一個徹頭徹尾的梗。
  • 我真的無法判斷,但我想它觸動了人們的心弦,并為每個人都能感受到但又無法用言語表達的東西命名。

氛圍編程:讓編程變得普及

Hugging Face的Tom Wolf分享了一段我非常喜歡的視頻,這些孩子正在進行氛圍編程。

我覺得這是一個非常治愈的視頻,我愛這個視頻。你怎么能看到這個視頻,然后對未來感到悲觀呢?未來是美好的。😭

(they grow up "knowing" they can build anything 😭greatness)

我認為這最終會成為軟件開發的"入門毒品"。

我不是一個對未來感到悲觀的人。我嘗試過氛圍編程,因為它很有趣。當您想構建一些超級定制的、似乎不存在的東西,并且您只是想隨意嘗試一下,比如在一個周六,氛圍編程就非常棒。

所以我構建了這個iOS應用程序,我實際上不會用Swift編程,但我非常震驚,我竟然能夠構建一個超級基礎的應用程序。

我不會解釋它,它真的很傻,但這就像是一天的工作量,當天晚些時候它就在我的手機上運行了。

我當時想:"哇,這太棒了!"我不需要花五天時間閱讀Swift才能上手


Menu Genen:氛圍編程的實際應用

我還用氛圍編程開發了另一個應用程序,叫做Menu Genen,它已經上線了,您可以在menu.app上嘗試。

我當時遇到的問題是,我去餐館看菜單,但完全不知道那些菜是什么,我需要圖片。但這種應用不存在,所以我想:"嘿,我要用氛圍編程把它做出來。"

所以,這就是它的樣子,您訪問menu.app,然后拍下菜單的照片,Menu Genen就會生成圖片。

  • 每個人注冊時都會獲得5美元的免費積分,因此這對我來說是一個巨大的成本中心,它目前是一個負收入的應用程序,我在Menu Genen上損失了巨額資金。
  • 但這個應用程序展示了氛圍編程的力量,它讓我能夠快速實現一個想法,而不必深入學習所有相關的編程語言和框架。這種快速原型開發和實現的能力是氛圍編程帶來的最大優勢之一。

氛圍編程的挑戰:從原型到產品

編碼不是最大挑戰

  • 對我來說,Menu Genen最吸引人的地方在于,氛圍編程部分的代碼實際上是制作Menu Genen最簡單的部分。
  • 大部分的困難在于我試圖讓它變得真實,以便您可以進行身份驗證、支付、擁有域名和部署。

DevOps的復雜性

  • 這真的很難,所有這些都不是代碼。
  • 所有這些DevOps的工作都是我在瀏覽器中點擊完成的,這非常慢,又花了一周時間。
  • 所以,Menu Genen的演示版在我的筆記本電腦上幾個小時就搞定了,但為了讓它變得真實,我花了一周時間,這真的很有趣。

集成的煩惱

  • 例如,如果您嘗試為您的網頁添加Google登錄,這個Clerk庫提供了大量的說明,告訴我如何集成它,這太瘋狂了!它告訴我:"去這個URL,點擊這個下拉菜單,選擇這個,去那個,點擊那個。"它就像一個計算機在告訴我應該采取哪些行動,你來做啊!


為Agent構建:面向未來的數字基礎設施

因此,我認為我演講的最后一部分將重點關注:我們能否為Agent構建?我不想做這些工作,Agent能做這些嗎?

  • 我們需要思考如何構建適合AI Agent操作的數字基礎設施,使它們能夠執行那些繁瑣、重復的任務,特別是那些涉及多個系統集成和配置的工作。
  • 這需要我們重新思考軟件和服務的設計方式,使其不僅適合人類使用,也適合AI Agent使用。
  • 這種轉變將需要新的接口標準、協議和工具,使AI Agent能夠無縫地與各種系統交互,執行復雜的任務流程,而無需人類的持續干預。

這不僅會提高效率,還會釋放人類的時間和注意力,讓我們專注于更具創造性和戰略性的工作。


為AI Agent設計數字基礎設施

新的信息使用者

  • 粗略地說,我認為數字信息的使用者和操作者出現了一個新的類別。過去只有人類通過圖形用戶界面(GUI)或計算機通過應用程序接口(API)進行操作,現在我們有了一個全新的事物,Agent。

LM.txt文件

  • 您可以在您的域名上放置lm.txt文件,這是一個簡單的Markdown文件,它告訴大型語言模型這個域名是關于什么的。這對于大型語言模型來說非常易讀,比直接解析HTML更有效。

AI友好文檔

  • 目前有大量的文檔是為人類編寫的,所以您會看到列表、粗體字和圖片,這些都不能被大型語言模型直接訪問。Vercel和Stripe等公司正在將他們的文檔專門針對大型語言模型進行轉換,以Markdown格式提供。

AI友好文檔的實際應用1

也許我個人經驗中的一個簡單例子是,你們中有些人可能知道Three Blue One Brown,他在YouTube上制作了精美的動畫視頻。

  • 我喜歡他編寫的Manim庫,我也想制作自己的動畫。Manim有詳細的文檔,但我不想閱讀它,所以我將整個文檔復制粘貼到大型語言模型中,并描述了我想要什么,它就直接工作了!
  • 大型語言模型直接為我編寫了一個動畫,完全符合我的要求。我當時想:"哇,這太棒了!"所以,如果我們能讓文檔對大型語言模型可讀,那將解鎖巨大的使用潛力,我認為這很棒,應該更多地發生。

(所以將現有的文檔都轉化 md 格式,是一個值得做的事情,應該是偏數據清洗方向的,可以聯系這篇前文?[項目詳解][boost搜索引擎#1] 概述 | 去標簽 | 數據清洗 | scp, 然后結合具體協議傳輸,考量轉化的落地性)


AI友好文檔的實際應用2

我想指出的另一件事是,不幸的是,這不僅僅是將您的文檔轉換為Markdown格式那么簡單,那只是容易的部分。

  • 我們實際上必須更改文檔,因為任何時候您的文檔中出現"點擊"這樣的詞,這都是不好的,大型語言模型目前無法原生執行此操作。
  • 例如,Vercel正在將所有"點擊"替換為等效的curl命令,您的語言模型代理可以代表您執行這些命令。
  • 我認為這非常有趣。當然,Anthropic也有一個模型上下文協議,這也是另一種直接與代理對話的方式,將它們視為數字信息的新消費者和操作者。

相關專欄:MCP Servers


為AI Agent提供更好的數據訪問

URL轉換工具

  • 當我訪問GitHub倉庫,比如我的nanoGPT倉庫時,我無法將其提供給大型語言模型并詢問有關它的問題,因為它是一個GitHub上的人類界面。
  • 所以,當您將URL從GitHub更改為get.ingest時,它實際上會將所有文件連接成一個巨大的文本,并創建目錄結構等等。

DeepWiki

也許更戲劇性的例子是DeepWiki,它不僅僅是這些文件的原始內容,這是來自Devin的,而且Devin基本上會對GitHub倉庫進行分析,并為您的倉庫構建完整的文檔頁面。

您可以想象,這對于復制粘貼到您的大型語言模型中會更有幫助。

  • 未來大型語言模型絕對有可能,這甚至不是未來,而是現在,它們將能夠四處瀏覽并點擊東西等等。
  • 但我仍然認為,讓大型語言模型更容易訪問所有這些信息是非常值得的,因為這仍然相當昂貴,而且困難得多。

所以我確實認為,許多軟件會有一個長尾效應,它們不會適應應用程序,因為這些不是像實時播放器那樣的倉庫或數字基礎設施,我們將需要這些工具。

(Ai 生態:AI 輔助性的工具市場)


總結:我們正處于大型語言模型的1960年代——是時候開始構建了

重寫代碼的時代

現在是進入這個行業的絕佳時機。我們需要重寫大量的代碼,這些代碼將由專業人士和程序員編寫。

(JOIN IT !!!!)

新型操作系統

這些大型語言模型有點像公用事業,有點像晶圓廠,但它們尤其像操作系統。

現在還處于早期階段,就像操作系統的1960年代。

類人靈魂people spirit

這些大型語言模型有點像那些易犯錯的"類人靈魂",我們需要學會如何與它們合作。為了正確地做到這一點,我們需要調整我們的基礎設施。

自主性滑塊

回到鋼鐵俠戰衣的類比,我認為在未來十年左右,我們將看到我們將把滑塊從左向右滑動。

這將非常有趣,我迫不及待地想和大家一起構建它。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87243.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87243.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87243.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

uv包管理常用命令

uv常用命令 uv init 初始化項目 uv add 包名 添加包;多個包名,中間用空格 uv tree 包的關系 uv remove 刪除所有包 uv sync 重新解析 安裝工具 1、mypy 檢測工具 uv tool install mypy uv tool run mypy xxx.py 使用 2、Ruff uv tool…

Nano-vLLM 源碼學習

以下內容由Trae生成。我只管問和排版。 Nano-vLLM 是一個從零構建的輕量級vLLM實現項目,具備快速離線推理、代碼可讀性高和優化功能豐富等特點,性能表現和原版vLLM相媲美。以下是該項目各目錄和文件的功能說明: 1. 根目錄: benc…

MySQL 8.4 備份與恢復完全指南

本文全面解析MySQL 8.4的備份與恢復機制,涵蓋備份類型、方法、策略及實際操作示例。 一、備份類型解析 1. 物理(原始)備份 vs 邏輯備份 特性物理備份邏輯備份原理直接復制數據庫目錄/文件(如數據文件、日志)導出邏輯結構(CREATE…

Mac 部署Latex OCR并優化體驗(打包成App并支持全局快捷鍵)

🍁 前言 最近閱讀論文,在做筆記的時候總是要手動輸入一些latex公式,非常耗時。我使用Hapigo的Latex 公式識別,感覺還挺好用,但是缺陷是只有30次免費額度,于是在網上搜索了一下,發現可以通過本地…

128K 長文本處理實戰:騰訊混元 + 云函數 SCF 構建 PDF 摘要生成器

一、背景 在數字化辦公時代,PDF 文檔因其格式穩定、兼容性強等特點,成為知識分享與文檔存儲的主要載體之一。但隨著文檔規模的增長,如何快速提取關鍵信息成為亟待解決的問題。尤其對于 128K 字符及以上的長文本 PDF,傳統處理方法…

Elasticsearch 排序性能提升高達 900 倍

作者:來自 Elastic Benjamin Trent, Mayya Sharipova, Chenhui Wang 及 Libby Lin 了解我們如何通過更快的 float / half_float 排序和 integer 排序的延遲優化來加快 Elasticsearch 排序速度。 Elasticsearch 引入了大量新功能,幫助你為你的使用場景構建…

Nginx重定向協議沖突解決方案:The plain HTTP request was sent to HTTPS port

問題原因 ??服務器運行在 HTTPS 模式,但代碼卻發出了 HTTP 重定向指令,兩套協議對不上,瀏覽器直接報錯。?? 在Java中,常見于response.sendRedirect()方法的使用。該方法默認生成基于HTTP的絕對URL,即便原始請求是…

機器學習如何讓智能推薦“更懂你”,助力轉化率飛躍?

機器學習如何讓智能推薦“更懂你”,助力轉化率飛躍? 今天咱聊聊一個電商、內容平臺、社交App都離不開的“秘密武器”——智能推薦系統,以及機器學習到底如何幫它提升轉化率的。 說白了,轉化率就是“點進去買單”的概率。智能推薦做得好,轉化率能蹭蹭上漲;做不好,用戶滑…

Ruby CGI Session

Ruby CGI Session 引言 CGI(Common Gateway Interface)是一種網絡服務器與外部應用程序(如腳本或程序)進行通信的協議。在Ruby語言中,CGI被廣泛用于創建動態網頁。本文將深入探討Ruby CGI Session的相關知識&#xf…

從零開始的云計算生活——第二十四天,重起航帆,初見MySQL數據庫

一.故事劇情 接下來要進入到一條比較長的路——mysql數據庫,之后會用一段時間來學習mySQL數據庫的內容,今天先從基礎開始介紹mysql數據庫。 二.MySQL數據庫概述 1.數據庫概念 數據庫(Database) 簡稱DB,按照一定格式存儲數據的一些文件的…

ES文件管理器v4.4.3(ES文件瀏覽器)

前言 ES文件管理器(也叫ES文件瀏覽器)是一款手機上用來看和管理文件的工具。你可以用它像在電腦上一樣,把文件整理進不同的文件夾,查找照片、文檔、視頻都很方便。它還能看到平時看不到的隱藏文件,幫你清理一些沒用的…

leetcode:693. 交替位二進制數(數學相關算法題,python3解法)

難度:簡單 給定一個正整數,檢查它的二進制表示是否總是 0、1 交替出現:換句話說,就是二進制表示中相鄰兩位的數字永不相同。 示例 1: 輸入:n 5 輸出:true 解釋:5 的二進制表示是&am…

GRU與LSTM之間的聯系和區別

前面我們談到RNN與LSTM之間的關系,而GRU也是循環神經網絡中的一種模型,那么它與LSTM有什么區別呢? 接下來我來對GRU(Gated Recurrent Unit)模型進行一次深度解析,重點關注其內部結構、參數以及與LSTM的對比…

2025年數字信號、計算機通信與軟件工程國際會議(DSCCSE 2025)

2025年數字信號、計算機通信與軟件工程國際會議(DSCCSE 2025) 2025 International Conference on Digital Signal, Computer Communication, and Software Engineering 一、大會信息 會議簡稱:DSCCSE 2025 大會地點:中國北京 審稿…

北峰智能SDC混合組網通信方案,助力無網絡場景高效作業

在自然災害、公共安全事件或大規模活動應急響應中,專用無線對講通信因其不受外部網絡限制、免去通話費用、無需撥號便可實現即時語音調度的特點,展現出其不可替代的價值。尤其在許多無基礎設施的地區,對智能化調度管理的需求并不亞于城市地區…

HarmonyOS應用開發高級認證知識點梳理 (二) 組件交互

以下是 HarmonyOS 應用開發中 ?組件交互? 的核心知識點梳理(高級認證備考重點),涵蓋事件傳遞、狀態管理、通信機制及生命周期協同: 一、事件處理機制 基礎交互類型? (1)點擊事件(onClick) 核心要點?…

【SQL優化案例】索引創建不合理導致SQL消耗大量CPU資源

#隱式轉換 第一章 適用環境 oracle 11glinux 6.9 第二章 Top SQL概況 下面列出我們發現的特定模塊中Top SQL的相關情況: SQL_ID 模塊 SQL類型 主要問題 fnc58puaqkd1n 無 select 索引創建不合理,導致全索引掃描,產生了大量邏輯讀 …

autoas/as 工程的RTE靜態消息總線實現與端口數據交換機制詳解

0. 概述 autoas/as 工程的RTE(Runtime Environment)通過自動生成C代碼,將各SWC(軟件組件)之間的數據通信全部靜態化、結構化,實現了類似“靜態消息總線”的通信模型。所有端口的數據交換都必須經過RTE接口…

【機器學習第四期(Python)】LightGBM 方法原理詳解

LightGBM 概述 一、LightGBM 簡介二、LightGBM 原理詳解?? 核心原理🧠 LightGBM 的主要特點 三、LightGBM 實現步驟(Python)🧪 可調參數推薦完整案例代碼(回歸任務 可視化) 參考 LightGBM 是由微軟開源的…

時序數據庫IoTDB監控指標采集與可視化指南

一、概述 本文以時序數據庫IoTDB V1.0.1版本為例,介紹如何通過Prometheus采集Apache IoTDB的監控指標,并使用Grafana進行可視化。 二、Prometheus聚合運算符 Prometheus支持多種聚合運算符,用于在時間序列數據上進行聚合操作。以下是一些常…