[Andrej Karpathy_2] vibe coding | 大型語言模型的1960年代

Hugging Face的Tom Wolf分享了一段我非常喜歡的視頻，這些孩子正在進行氛圍編程。

我覺得這是一個非常治愈的視頻，我愛這個視頻。（they grow up "knowing" they can build anything 😭greatness)

未來是美好的

前文：[Andrej Karpathy] 大型語言模型作為新型操作系統

Perplexity：另一個成功的LLM應用案例

再舉一個相當成功的大型語言模型應用的例子——Perplexity。

它也具有我剛才在Cursor中指出的一些非常相似的特性。它打包了大量信息，協調了多個大型語言模型，并且有一個GUI允許您審計其部分工作。

例如，它會引用來源，您可以想象檢查它們，它還有一個自主性滑塊。

您可以進行快速搜索，也可以進行研究，或者進行深度研究，并在10分鐘后回來。所有這些都是您賦予工具的不同程度的自主性。

Perplexity通過結合搜索引擎和大型語言模型的能力，創造了一種新型的信息獲取體驗。

它不僅提供答案，還提供來源和背景，使用戶能夠驗證信息的準確性，同時根據需要調整搜索的深度和廣度。

部分自主軟件的未來

軟件的自主化轉變

我想我的問題是，我覺得很多軟件都會變得部分自主。

我正在思考這會是什么樣子，對于你們中許多維護產品和服務的人來說，你們將如何使你們的產品和服務部分自主化？

關鍵設計問題

大型語言模型能否看到人類能看到的一切？大型語言模型能否以人類能做到的所有方式行動？人類能否監督并參與到這項活動中，因為這些系統是易出錯的，尚未完美。

界面的重新設計

在Photoshop中，差異會是什么樣子？現在許多傳統軟件都有各種開關和各種東西，這些都是為人類設計的，所有這些都必須改變，并變得對大型語言模型可訪問。

人機協作：生成與驗證循環

workflow

我想強調的是，對于許多大型語言模型應用，我不確定它是否得到了應有的關注，那就是我們現在正在與人工智能合作，通常它們負責生成，而我們人類負責驗證。

讓這個循環盡可能快地進行符合我們的利益，這樣我們就能完成大量工作。

我認為有兩種主要方式可以做到這一點：

第一，

您可以大大加快驗證速度。我認為GUI在這方面極其重要，因為GUI利用了我們大腦中的計算機視覺GPU。
閱讀文本是費力的，而且不好玩，但看東西很有趣，它就像一條通往大腦的高速公路。

第二，

我想說的是，我們必須"牽著"（leash）人工智能。
我認為很多人對AI Agent過于興奮，但對我來說，收到一個包含10,000行代碼的差異（diff），這并沒有什么用。
我仍然是瓶頸，即使這10,000行代碼是瞬間生成的，我仍然需要確保它沒有引入錯誤，并且它正在做正確的事情

人工智能輔助編程的最佳實踐

小增量工作

在我自己的工作中，我總是害怕出現過大的差異。我總是以小的增量塊進行操作，我想確保一切都良好，我想讓這個循環非常非常快地進行。

具體明確的提示

如果您的提示模糊不清，那么人工智能可能無法完全按照您的意愿行事，在這種情況下，驗證將失敗。如果驗證失敗，您將不得不重新開始。因此，花更多時間使您的提示更具體會更有意義。

快速驗證循環

我傾向于處理小塊的、單一的具體事物。我認為你們中的許多人可能正在開發與大型語言模型協作的類似方式，使驗證過程盡可能高效。

AI輔助教育：課程創建與交付

在我自己的工作中，我也對人工智能和大型語言模型背景下的教育是什么樣子很感興趣。

我認為我大量思考的是如何"牽著"人工智能。我不認為僅僅去聊天并說"嘿，教我物理"就能奏效。
我認為這行不通，因為人工智能會迷失方向。

所以對我來說，這實際上是兩個獨立的應用程序。

例如，有一個應用程序是為教師創建課程的，然后有一個應用程序是接收課程并將其提供給學生的。在這兩種情況下，我們現在都有一個中間產物——課程，它是可審計的，我們可以確保它良好，我們可以確保它一致。

這是"牽著"人工智能的一種方式，我認為它成功的可能性要大得多，而且人工智能不會迷失方向。

通過將過程分為課程創建和課程交付兩個獨立的步驟，我們可以在每個階段應用適當的控制和驗證，確保教育內容的質量和一致性。

自動駕駛：部分自主性的先例

我想提及的另一個類比是，我對部分自主性并不陌生，我在特斯拉為此工作了五年。

自動駕駛也是一個部分自主性產品，它具有許多特性，例如儀表盤上就有自動駕駛的GUI，它會顯示神經網絡看到了什么。我們也有自主性滑塊，在我任職期間，我們為用戶完成了越來越多的自主任務。

我第一次駕駛自動駕駛汽車是在2013年，我有一個在Waymo工作的朋友，他邀請我一起在帕洛阿爾托開車。

我們坐上那輛車，在帕洛阿爾托的高速公路和街道上行駛了大約30分鐘，整個過程非常完美，沒有任何人工干預。那是2013年，距今已有12年了（amazing😮）。這讓我很震驚，因為當時我有了這次完美的駕駛體驗，完美的演示，我覺得自動駕駛即將到來。

但12年過去了，我們仍在研究自主性，我們仍在研究駕駛代理。即使現在，我們也沒有真正解決這個問題。

因此，我認為軟件確實很棘手，就像駕駛一樣棘手。

所以當我看到"2025年是Agent之年"這樣的說法時，我非常擔心。我覺得，這是"Agent的十年"，這將需要相當長的時間。我們需要人類參與其中，我們需要謹慎行事，這是軟件，我們應該認真對待。

鋼鐵俠類比：增強與代理

我經常思考的另一個類比是鋼鐵俠戰衣。我一直很喜歡鋼鐵俠，我認為它在很多方面都非常準確地預示了技術將如何發展。

我喜歡鋼鐵俠戰衣的原因是，它既是一種增強，托尼·斯塔克可以駕駛它，它也是一個Agent。在一些電影中，鋼鐵俠戰衣非常自主，可以自行飛行并找到托尼等等。
所以，這就是自主性滑塊。我們可以構建增強功能，也可以構建代理，我們希望兩者兼顧。
但在現階段，我認為，在使用易出錯的大型語言模型時，您應該更多地構建鋼鐵俠戰衣，而不是鋼鐵俠機器人。

也就是說，少一些炫目的自主Agent演示，多一些部分自主性產品。

這些產品擁有定制的圖形用戶界面和用戶體驗設計，目的是讓人類進行生成和驗證的循環盡可能快，但我們并沒有忽視原則上自動化這項工作的可能性，并且您的產品中應該有一個自主性滑塊。

（AI 在發展，我們的軟件和數據庫也應該和 AI 接軌化，促進智能化的發展）

氛圍編程：人人都是程序員

現在我想稍微轉換一下話題，談談另一個我認為非常獨特的維度。

不僅出現了一種新的編程語言，它允許軟件實現自主性，而且正如我所提到的，它是用英語編程的，這是一種自然的界面。
突然之間，每個人都成了程序員，因為每個人都會說自然語言，比如英語。

這對我來說是極其看好和非常有趣的，而且也是前所未有的。過去，您需要花費五到十年的時間學習才能在軟件領域有所作為，但現在情況不再如此。我不知道有沒有人聽說過"氛圍編程"（vibe coding），這條推文就是它的起源，但我聽說它現在已經成為一個主要的梗。

關于這個有一個有趣的故事：我玩Twitter大概有15年了，但直到現在我仍然不知道哪條推文會火，哪條會默默無聞。

我當時以為這條推文會是后者，我不知道，它只是我洗澡時的一些想法，但它卻成了一個徹頭徹尾的梗。
我真的無法判斷，但我想它觸動了人們的心弦，并為每個人都能感受到但又無法用言語表達的東西命名。

氛圍編程：讓編程變得普及

Hugging Face的Tom Wolf分享了一段我非常喜歡的視頻，這些孩子正在進行氛圍編程。

我覺得這是一個非常治愈的視頻，我愛這個視頻。你怎么能看到這個視頻，然后對未來感到悲觀呢？未來是美好的。😭

（they grow up "knowing" they can build anything 😭greatness)

我認為這最終會成為軟件開發的"入門毒品"。

我不是一個對未來感到悲觀的人。我嘗試過氛圍編程，因為它很有趣。當您想構建一些超級定制的、似乎不存在的東西，并且您只是想隨意嘗試一下，比如在一個周六，氛圍編程就非常棒。

所以我構建了這個iOS應用程序，我實際上不會用Swift編程，但我非常震驚，我竟然能夠構建一個超級基礎的應用程序。

我不會解釋它，它真的很傻，但這就像是一天的工作量，當天晚些時候它就在我的手機上運行了。

我當時想："哇，這太棒了！"我不需要花五天時間閱讀Swift才能上手

Menu Genen：氛圍編程的實際應用

我還用氛圍編程開發了另一個應用程序，叫做Menu Genen，它已經上線了，您可以在menu.app上嘗試。

我當時遇到的問題是，我去餐館看菜單，但完全不知道那些菜是什么，我需要圖片。但這種應用不存在，所以我想："嘿，我要用氛圍編程把它做出來。"

所以，這就是它的樣子，您訪問menu.app，然后拍下菜單的照片，Menu Genen就會生成圖片。

每個人注冊時都會獲得5美元的免費積分，因此這對我來說是一個巨大的成本中心，它目前是一個負收入的應用程序，我在Menu Genen上損失了巨額資金。
但這個應用程序展示了氛圍編程的力量，它讓我能夠快速實現一個想法，而不必深入學習所有相關的編程語言和框架。這種快速原型開發和實現的能力是氛圍編程帶來的最大優勢之一。

氛圍編程的挑戰：從原型到產品

編碼不是最大挑戰

對我來說，Menu Genen最吸引人的地方在于，氛圍編程部分的代碼實際上是制作Menu Genen最簡單的部分。
大部分的困難在于我試圖讓它變得真實，以便您可以進行身份驗證、支付、擁有域名和部署。

DevOps的復雜性

這真的很難，所有這些都不是代碼。
所有這些DevOps的工作都是我在瀏覽器中點擊完成的，這非常慢，又花了一周時間。
所以，Menu Genen的演示版在我的筆記本電腦上幾個小時就搞定了，但為了讓它變得真實，我花了一周時間，這真的很有趣。

集成的煩惱

例如，如果您嘗試為您的網頁添加Google登錄，這個Clerk庫提供了大量的說明，告訴我如何集成它，這太瘋狂了！它告訴我："去這個URL，點擊這個下拉菜單，選擇這個，去那個，點擊那個。"它就像一個計算機在告訴我應該采取哪些行動，你來做啊！

為Agent構建：面向未來的數字基礎設施

因此，我認為我演講的最后一部分將重點關注：我們能否為Agent構建？我不想做這些工作，Agent能做這些嗎？

我們需要思考如何構建適合AI Agent操作的數字基礎設施，使它們能夠執行那些繁瑣、重復的任務，特別是那些涉及多個系統集成和配置的工作。
這需要我們重新思考軟件和服務的設計方式，使其不僅適合人類使用，也適合AI Agent使用。
這種轉變將需要新的接口標準、協議和工具，使AI Agent能夠無縫地與各種系統交互，執行復雜的任務流程，而無需人類的持續干預。

這不僅會提高效率，還會釋放人類的時間和注意力，讓我們專注于更具創造性和戰略性的工作。

為AI Agent設計數字基礎設施

新的信息使用者

粗略地說，我認為數字信息的使用者和操作者出現了一個新的類別。過去只有人類通過圖形用戶界面（GUI）或計算機通過應用程序接口（API）進行操作，現在我們有了一個全新的事物，Agent。

LM.txt文件

您可以在您的域名上放置lm.txt文件，這是一個簡單的Markdown文件，它告訴大型語言模型這個域名是關于什么的。這對于大型語言模型來說非常易讀，比直接解析HTML更有效。

AI友好文檔

目前有大量的文檔是為人類編寫的，所以您會看到列表、粗體字和圖片，這些都不能被大型語言模型直接訪問。Vercel和Stripe等公司正在將他們的文檔專門針對大型語言模型進行轉換，以Markdown格式提供。

AI友好文檔的實際應用1

也許我個人經驗中的一個簡單例子是，你們中有些人可能知道Three Blue One Brown，他在YouTube上制作了精美的動畫視頻。

我喜歡他編寫的Manim庫，我也想制作自己的動畫。Manim有詳細的文檔，但我不想閱讀它，所以我將整個文檔復制粘貼到大型語言模型中，并描述了我想要什么，它就直接工作了！
大型語言模型直接為我編寫了一個動畫，完全符合我的要求。我當時想："哇，這太棒了！"所以，如果我們能讓文檔對大型語言模型可讀，那將解鎖巨大的使用潛力，我認為這很棒，應該更多地發生。

（所以將現有的文檔都轉化 md 格式，是一個值得做的事情，應該是偏數據清洗方向的，可以聯系這篇前文?[項目詳解][boost搜索引擎#1] 概述 | 去標簽 | 數據清洗 | scp, 然后結合具體協議傳輸，考量轉化的落地性）