[GPT]Andrej Karpathy微軟Build大會GPT演講(下)--該如何使用GPT助手

該如何使用GPT助手--將GPT助手模型應用于問題

現在我要換個方向,讓我們看看如何最好地將 GPT 助手模型應用于您的問題。

現在我想在一個具體示例的場景里展示。讓我們在這里使用一個具體示例。

假設你正在寫一篇文章或一篇博客文章,你打算在最后寫這句話。

加州的人口是阿拉斯加的 53 倍。因此出于某種原因,您想比較這兩個州的人口。

想想我們自己豐富的內心獨白和工具的使用,以及在你的大腦中實際進行了多少計算工作來生成這最后一句話。

這可能是你大腦中的樣子:

好的。對于下一步,讓我寫博客——在我的博客中,讓我比較這兩個人群。

好的。首先,我顯然需要得到這兩個人群。

現在我知道我可能根本不了解這些人群。

我有點,比如,意識到我知道或不知道我的自我知識;正確的?

我去了——我做了一些工具的使用,然后我去了維基百科,我查找了加利福尼亞的人口和阿拉斯加的人口。

現在我知道我應該把兩者分開。

同樣,我知道用 39.2 除以 0.74 不太可能成功。

那不是我腦子里能做的事情。

因此,我將依靠計算器。

我打算用一個計算器,把它打進去,看看輸出大約是 53。

然后也許我會在我的大腦中做一些反思和理智檢查。

那么53有意義嗎?

好吧,這是相當大的一部分,但是加利福尼亞是人口最多的州,也許這看起來還可以。

這樣我就有了我可能需要的所有信息,現在我開始寫作的創造性部分了。

我可能會開始寫類似,加利福尼亞有 53 倍之類的東西,然后我對自己說,這實際上是非常尷尬的措辭,讓我刪除它,然后再試一次。

在我寫作的時候,我有一個獨立的過程,幾乎是在檢查我正在寫的東西,并判斷它是否好看。

然后也許我刪除了,也許我重新構造了它,然后也許我對結果感到滿意。

基本上,長話短說,當你創造這樣的句子時,你的內心獨白會發生很多事情。

這里Andrej從一個具體的例子開始講起,首先假設我們需要寫一篇博客,在博客的最后希望寫一句話“加州的人口是阿拉斯加的53倍”,為了能夠給出這個結論,我們的大腦中需要進行很多前置工作,如下圖所示,先想一下我得知道他們各自的人口是多少,但是這不在我的腦海中,因此我需要去檢索。然后通過wiki我知道了加州有39.2M的人,阿拉斯加有0.74M的人,然后我需要計算一下兩者的除法,但我沒法心算,所以我用計算器算了一下,得到39.2/0.74=53. 快速的在腦海中確認一下,這個數值是否合理,加州人確實比阿拉斯加多很多,感覺應該合理,于是我確信加州的人是阿拉斯加的53倍,并寫到我的博客中,在寫的過程中可能還會覺得辭藻不夠美妙,反復修改一下。 所以為了達成這個目標,我的腦海中需要經過很多很多的事項才可以。

但是,當我們在其上訓練 GPT 時,這樣的句子是什么樣的?

從 GPT 的角度來看,這只是一個標記序列。因此,當 GPT 讀取或生成這些標記時,它只會進行分塊、分塊、分塊,每個塊對每個標記的計算工作量大致相同。

這些 Transformer 都不是很淺的網絡,它們有大約 80 層的推理,但 80 仍然不算太多。

這個Transformer將盡最大努力模仿...但是,當然,這里的過程看起來與你采用的過程非常非常不同。

特別是,在我們最終的人工制品中,在創建并最終提供給 LLM 的數據集中,所有內部對話都被完全剝離(只給出最后結果作為訓練數據)。

并且與您不同的是,GPT 將查看每個標記并花費相同的算力去計算它們中的每一個,實際上,你不能指望它對每個標記做太多的工作。

基本上,這些Transformer就像標記模擬器。它們不知道自己不知道什么,它們只是模仿(預測)下一個標記;它們不知道自己擅長什么,不擅長什么,只是盡力模仿(預測)下一個標記。

它們不反映在循環中,它們不檢查任何東西,它們在默認情況下不糾正它們的錯誤,它們只是對標記序列進行采樣。

它們的頭腦中沒有單獨的內心獨白流,它們正在評估正在發生的事情。

現在它們確實有某種認知優勢,我想說,那就是它們實際上擁有大量基于事實的知識,涵蓋大量領域,因為它們有幾百億個參數,這是大量存儲和大量事實。

而且我認為,它們也有相對大而完美的工作記憶。

因此,任何適合上下文窗口的內容都可以通過其內部自注意機制立即供Transformer使用,它有點像完美的記憶。它的大小是有限的,但Transformer可以非常直接地訪問它,它可以無損地記住其上下文窗口內的任何內容。

這就是我比較這兩者的方式。

我之提出所有這些,是因為我認為在很大程度上,提示只是彌補了這兩種架構之間的這種認知差異。就像我們人類大腦和 LLM 大腦(的比較),你可以這么看。

這樣的一個過程其實就是一連串的token序列。在GPT處理時,他只會一塊一塊又一塊的逐個去處理這些token,花差不多的時間去計算下一個詞是什么,他并不像我們人類一下具有豐富的心理活動。他不知道他知道什么,他只是去模擬下一個詞。他不知道什么好什么壞,他只是去模擬下一個詞。他不會反思,不會檢查,不會修正自己的問題。他的優勢在于具備大量的基礎知識,涵蓋了大量的領域,保存在他的幾百億的參數中,并且對于他們的context windows可以完美處理。

人們發現有一件事,在實踐中效果很好。

特別是如果您的任務需要推理,您不能指望Transformer對每個標記進行太多推理,因此

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/212960.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/212960.shtml
英文地址,請注明出處:http://en.pswp.cn/news/212960.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

佳明(Garmin) fēnix 7X 增加小睡檢測功能

文章目錄 (一)零星小睡(二)小睡檢測(三)吐槽佳明(3.1)心率檢測(3.2)光線感應器(3.3)手表重量(3.4)手表續航 &a…

保姆級 | XSS Platform環境搭建

0x00 前言 XSS Platform 平臺主要是用作驗證跨站腳本攻擊。該平臺可以部署在本地或服務器環境中。我們可以使用 XSS Platfrom 平臺搭建、學習或驗證各種類型的 XSS 漏洞。 0x01 環境說明 HECS(云耀云服務器)xss platformUbuntu 22.04Nginx 1.24.0MySQL 5.6.51Pure-Ftpd 1.0.49…

最新接口自動化測試面試題

前言 前面總結了一篇關于接口測試的常規面試題,現在接口自動化測試用的比較多,也是被很多公司看好。那么想做接口自動化測試需要具備哪些能力呢? 也就是面試的過程中,面試官會考哪些問題,知道你是不是真的做過接口自…

大數據面試總結 二

1、事實表主要分成幾種: 1、事務事實表:又稱作原子事實表,主要是用來描述業務過程,跟蹤控件或者時間上某點的度量事件,保存的是最原子的數據 2、周期事實表:以一個周期作為一個時間間隔,用來記…

2021版吳恩達深度學習課程Deeplearning.ai 05序列模型 12.5

學習內容 05.序列模型 1.1 為什么用序列模型 1.序列模型常見的應用 1.2 注釋 notation 1.*T_x(i)表示訓練樣本x(i)的序列長度,T_y(i)表示target(i)的序列長度2.訓練集表示單詞的方式*構建字典的方式*在訓練集中查找出現頻率最高的單詞*網絡搜集常用字典3.如果遇…

【C語言快速學習基礎篇】之一基礎類型、進制轉換、數據位寬

文章目錄 一、基礎類型(根據系統不同占用字節數會有變化)1.1、有符號整形1.2、無符號整形1.3、字符型1.4、浮點型1.5、布爾型 二、進制轉換2.1、二進制2.2、八進制2.3、十進制2.4、十六進制2.5、N進制2.6、進制轉換關系對應表 三、數據位寬3.1、位3.2、字節3.3、字3.4、雙字3.5…

程序員常用英文單詞

英語對于程序員來說多么重要應該無需過多解釋了,把近期在網上收集到的分享到這里供大家學習交流。 PS:感謝原作者的收集,謝謝。 A abstract 抽象的 abstract base class (ABC) 抽象基類abstract class 抽象類 abstraction 抽象、抽象物、抽象…

【數據結構高階】紅黑樹

目錄 一、紅黑樹的概念 二、紅黑樹的性質 2.1 紅黑樹與AVL樹的比較 三、紅黑樹的實現 3.1 紅黑樹節點的定義 3.2 數據的插入 3.2.1 紅黑樹的調整思路 3.2.1.1 cur為紅,f為紅,g為黑,u存在且為紅 3.2.1.2 cur為紅,f為紅&am…

【重點】【LCA】236. 二叉樹的最近公共祖先

題目 class Solution {public TreeNode lowestCommonAncestor(TreeNode root, TreeNode p, TreeNode q) {if (root null || root p || root q) {return root;}TreeNode left lowestCommonAncestor(root.left, p, q);TreeNode right lowestCommonAncestor(root.right, p, …

【重點】【DFS】124.二叉樹中的最大路徑和

題目 和求二叉樹直徑相同套路 class Solution {private int max Integer.MIN_VALUE;public int maxPathSum(TreeNode root) {if (root null) {return 0;}dfs(root);return max;}// 返回經過root的單邊分支最大和public int dfs(TreeNode root) {if (root null) {return 0;}…

IT新聞資訊系統,使用mysql作為后臺數據庫,此系統具有顯示數據庫中的所有信息和刪除兩大功能。

表的準備: -- MySQL Administrator dump 1.4 -- -- ------------------------------------------------------ -- Server version 5.1.40-community /*!40101 SET OLD_CHARACTER_SET_CLIENTCHARACTER_SET_CLIENT */; /*!40101 SET OLD_CHARACTER_SET_RESULTSCHAR…

LTP測試

LTP 測試 LTP套件是由 Linux Test Project 所開發的一套系統測試套件。它基于系統資源的利用率統計開發了一個測試的組合,為系統提供足夠的壓力。通過壓力測試來判斷系統的穩定性和可靠性。壓力測試是一種破壞性的測試,即系統在非正常的、超負荷的條件下的運行情況 。用來評估…

mysql庫名規范

mysql庫名的一些規范和建議: 庫名以小寫字母、數字、下劃線組成,不要以數字開頭。建議不要超過32個字符,但盡量用簡短的名稱。因為很多地方用到庫名,如果庫名太長,容易出錯。庫名選擇有意義的名稱,盡量與應…

55.手寫實現grpc連接池以及gin和grpc交互

文章目錄 一、簡介前置說明 二、敏感詞過濾服務1、定義sensitive.proto文件2、protoc生成pb.go文件3、sensitive服務端實現 三、關鍵詞匹配服務1、編寫keywords.proto文件2、生成pb.go文件3、keywords服務端實現 四、gin web 路由服務1、新建grpcpool服務作為gin web服務2、根據…

GEE影像升尺度(10m->250m)

GEE影像升尺度(10m->250m) 代碼 var ext /* color: #d63000 *//* shown: false *//* displayProperties: [{"type": "rectangle"}] */ee.Geometry.Polygon([[[108.74625980473367, 28.562445155322063],[108.74625980473367, …

【MySQL】之死鎖問題及其解決方案

前言 數據庫死鎖問題是我們老生常談的問題了,在我們實際開發過程中經常會遇到,為了盡量避免出現死鎖,我們需要了解出現死鎖的場景。同時,如果線上出現了死鎖之后怎么去分析、排查和解決,下面我就這兩點介紹一下。 一、…

ubuntu22.04 怎么開啟SSH服務

在 Ubuntu 22.04 LTS 中,默認情況下不會自動啟動 SSH 服務。如果你想通過 SSH 訪問你的 Ubuntu 系統,你需要手動安裝 SSH 服務器,并確保 22 端口(SSH 的默認端口)是開放的。以下是必要的步驟: 安裝 SSH 服…

Java 多線程之同步(鎖)相關類總結

文章目錄 一、概述二、volatile 可見性/有序性三、synchronized 互拆鎖/排他鎖/非觀鎖四、DCL(Double-Checked Locking)五、CAS(Compare and Set)六、ReentrantLock 可重入鎖/公平/非公平鎖七、ReentrantReadWriteLock 讀寫鎖/共享…

Day56力扣打卡

打卡記錄 數對統計&#xff08;DP狀態壓縮&#xff09; 參考文獻 #include <bits/stdc.h>using namespace std;void solve(){int n;cin >> n;map<int, int> mapp;vector<int> a(n);for (auto& x : a){cin >> x;mapp[x] ;}vector<array&…