翻譯: 深入分析LLMs like ChatGPT 一

在這里插入圖片描述

大家好,我想做這個視頻已經有一段時間了。這是一個全面但面向普通觀眾的介紹,介紹像ChatGPT這樣的大型語言模型。我希望通過這個視頻讓大家對這種工具的工作原理有一些概念性的理解。

首先,我們來談談你在這個文本框里輸入內容并點擊回車后背后的運作機制。我們應該輸入什么?這些生成出來的詞又是怎么回事?它是如何工作的?你到底是在和什么交流?
在這里插入圖片描述

我們將從構建像ChatGPT這樣的東西開始講起,在這個過程中,我會提到一些這些工具在認知心理學方面的影響。

預訓練數據(互聯網)?
在這里插入圖片描述

預訓練階段是整個過程的第一步。預訓練階段的第一步是從互聯網下載和處理數據。為了讓大家對這個有個直觀的感受,我推薦大家看看這個網址。有一家公司叫Hugging Face,他們收集、整理并創建了一個名為FineWeb的數據集。他們在這個博客文章里詳細介紹了FineWeb數據集的構建過程。像OpenAI、Anthropic和Google等主要的LLM提供商內部也有類似的數據集。
在這里插入圖片描述

我們試圖從互聯網上獲取大量高質量的文本,這些文本來源公開可用,并且我們希望文檔的種類非常豐富,因為我們希望模型能包含大量的知識。實現這個目標其實很復雜,需要多個步驟。比如FineWeb數據集最終大概是44TB的磁盤空間。雖然互聯網非常大,但我們處理的是文本,并且經過了嚴格的篩選。
在這里插入圖片描述

Common Crawl是一個從2007年開始就一直在抓取互聯網的組織。截至2024年,他們索引了27億個網頁。他們有很多爬蟲在互聯網上抓取數據,從一些種子網頁開始,順著鏈接不斷抓取并索引信息。Common Crawl的數據很原始,需要經過很多處理步驟,比如URL過濾,去除惡意網站、垃圾網站等;文本提取,把HTML代碼轉化為純文本;語言過濾,比如FineWeb會用語言分類器篩選出英語占比超過65%的網頁;還有去重和去除個人身份信息等操作。
在這里插入圖片描述

標記化(Tokenization)?

在把文本輸入神經網絡之前,我們需要決定如何表示這些文本并將其輸入。我們的技術要求文本是一維符號序列,并且符號數量有限。我們先把文本轉化為UTF - 8編碼的原始比特,然后通過字節對編碼算法等方式將文本轉化為有限的符號序列。比如GPT - 4使用了大約10萬個可能的符號。

神經網絡的輸入輸出

我們把文本序列用標記器轉化為標記序列后,就進入神經網絡訓練階段。我們希望模型學習標記在序列中的統計關系。我們會從數據中選取一定長度的標記窗口,預測下一個標記。開始時神經網絡是隨機初始化的,我們會根據預測結果和真實標簽調整網絡參數,讓正確答案的概率更高。

神經網絡內部

神經網絡的輸入是變長標記序列,輸出是對下一個標記的預測概率。這些參數就像DJ調音臺上的旋鈕,通過調整參數來優化模型的預測結果。現代神經網絡有數十億個參數,訓練過程就是不斷調整這些參數使其與訓練數據的統計模式相匹配。

推理(Inference)?

推理階段是從模型中生成新數據。我們從一些起始標記開始,根據模型的概率分布采樣下一個標記,不斷重復這個過程。由于采樣和隨機性的存在,生成的結果具有一定的隨機性,可能與訓練數據不完全相同。

GPT - 2:訓練和推理

GPT - 2是OpenAI發布的第二代Transformer神經網絡,有16億個參數,最大上下文長度為1242個標記,訓練了約1000億個標記。我曾嘗試復現GPT - 2,訓練成本在2019年估計約為40000美元,現在可以做得更好且成本更低。

Llama 3.1基礎模型推理

我們還可以使用一些大科技公司訓練好的模型。比如Llama 3,它是Meta發布的450億參數模型,訓練了15萬億個標記。Meta還發布了Instruct版本,使其成為一個助手模型。我們可以與基礎模型交互,但它還不是完整的助手,只是一個標記自動補全工具,并且結果是隨機的。雖然它能提供一些知識,但這些知識是模糊、概率性的,而且可能存在幻覺。不過,通過巧妙的提示設計,基礎模型也可以在一些實際應用中發揮作用,比如構建翻譯應用等。甚至可以通過特定的提示結構讓基礎模型扮演助手的角色。

最后,我們來回顧一下從預訓練到后訓練的過程。我們希望訓練像ChatGPT這樣的LLM助手,預訓練階段主要是獲取互聯網文檔,將其分割成標記,然后用神經網絡預測標記序列。

參考

https://www.youtube.com/live/7xTGNNLPyMI

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/72179.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/72179.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/72179.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Ubuntu 下 nginx-1.24.0 源碼分析 - ngx_conf_add_dump

ngx_conf_add_dump 定義在src\core\ngx_conf_file.c static ngx_int_t ngx_conf_add_dump(ngx_conf_t *cf, ngx_str_t *filename) {off_t size;u_char *p;uint32_t hash;ngx_buf_t *buf;ngx_str_node_t *sn;ngx_conf_dump_t *cd;has…

Oracle 導出所有表索引的創建語句

在Oracle數據庫中,導出所有表的索引創建語句通常涉及到使用數據字典視圖來查詢索引的定義,然后生成對應的SQL語句。你可以通過查詢DBA_INDEXES或USER_INDEXES視圖(取決于你的權限和需求)來獲取這些信息。 使用DBA_INDEXES視圖 如…

快速搭建多語言網站的 FastAdmin 實踐

快速搭建多語言網站的 FastAdmin 實踐 引言 在全球化的背景下,越來越多的網站需要支持多種語言,以便滿足不同用戶的需求。FastAdmin 是一個基于 ThinkPHP 的快速后臺開發框架,提供了豐富的功能和靈活的擴展性,非常適合用于快速搭…

Python 實戰:構建分布式文件存儲系統全解析

Python 實戰:構建分布式文件存儲系統全解析 在當今數據爆炸的時代,分布式文件存儲系統憑借其高可擴展性、高可靠性等優勢,成為了數據存儲領域的熱門選擇。本文將詳細介紹如何使用 Python 構建一個簡單的分布式文件存儲系統。從系統架構設計&…

【綜合項目】api系統——基于Node.js、express、mysql等技術

目錄 0 前言 1 初始化 2 注冊登錄 2.1 注冊 2.1.1 功能:密碼加密(2.3.3) 2.1.1.1 操作 2.1.1.2 bcryptjs詳解 2.1.2 插入新用戶(2.3.4) 2.1.3 優化:表單數據驗證(2.5) …

tableau之標靶圖、甘特圖和瀑布圖

一、標靶圖 概念 標靶圖(Bullet Chart)是一種用于顯示數據與目標之間關系的可視化圖表,常用于業務和管理報告中。其設計旨在用來比較實際值與目標值,同時展示額外的上下文信息(如趨勢)。 作用 可視化目標…

Linux下的網絡通信編程

在不同主機之間,進行進程間的通信。 1解決主機之間硬件的互通 2.解決主機之間軟件的互通. 3.IP地址:來區分不同的主機(軟件地址) 4.MAC地址:硬件地址 5.端口號:區分同一主機上的不同應用進程 網絡協議…

網絡七層模型—OSI參考模型詳解

網絡七層模型:OSI參考模型詳解 引言 在網絡通信的世界中,OSI(Open Systems Interconnection)參考模型是一個基礎且核心的概念。它由國際標準化組織(ISO)于1984年提出,旨在為不同廠商的設備和應…

530 Login fail. A secure connection is requiered(such as ssl)-java發送QQ郵箱(簡單配置)

由于cs的csdN許多文章關于這方面的都是vip文章,而本文是免費的,希望廣大網友覺得有幫助的可以多點贊和關注! QQ郵箱授權碼到這里去開啟 授權碼是16位的字母,填入下面的mail.setting里面的pass里面 # 郵件服務器的SMTP地址 host…

Sqlserver安全篇之_TLS的證書概念

證書的理解 參考Sqlserver的官方文檔https://learn.microsoft.com/zh-cn/sql/database-engine/configure-windows/certificate-overview?viewsql-server-ver16 TLS(Transport Layer Security)傳輸層安全和SSL(Secure Sockets Layer)安全套接字層協議位于應用程序協議層和TCP/…

【SQL】掌握SQL查詢技巧:數據分組與排序

目錄 1. GROUP BY 1.1 定義與用途1.2 示例說明1.3 注意事項1.4 可視化示例 2. ORDER BY 2.1 定義與用途2.2 升序說明(默認)2.3 降序排序2.4 多列排序2.5 可視化示例 3. GROUP BY 與 ORDER BY 的結合使用4. 可視化示例總結 在數據庫管理中,S…

SOME/IP-SD -- 協議英文原文講解6

前言 SOME/IP協議越來越多的用于汽車電子行業中,關于協議詳細完全的中文資料卻沒有,所以我將結合工作經驗并對照英文原版協議做一系列的文章。基本分三大塊: 1. SOME/IP協議講解 2. SOME/IP-SD協議講解 3. python/C舉例調試講解 5.1.3.1 E…

NameError: name ‘libpaddle‘ is not defined

問題場景: Error: Can not import paddle core while this file exists: C:\Users\Admin\AppData\Roaming\Python\Python38\site-packages\paddle\fluid\libpaddle.pyd Traceback (most recent call last): File "C:\Users\Admin\AppData\Roaming\Python\Pyth…

青少年編程與數學 02-010 C++程序設計基礎 11課題、程序結構

青少年編程與數學 02-010 C程序設計基礎 11課題、程序結構 一、C程序結構二、main函數1. main 函數的基本形式1.1 無參數形式1.2 帶參數形式 2. 參數解釋3. 示例3.1 無參數形式3.2 帶參數形式 4. 編譯和運行4.1 編譯4.2 運行 5. main 函數的返回值6. 總結 三、預處理指令1. #in…

【Linux】learning notes(3)make、copy、move、remove

文章目錄 1、mkdir (make directory)2、rmdir (remove directory)3、rm(remove)4、>5、touch 新建文件6、mv(move)7、cp(copy) 1、mkdir (make…

智能AI替代專家系統(ES)、決策支持系統(DSS)?

文章目錄 前言一、專家系統(ES)是什么?二、決策支持系統(DSS)是什么?1.決策支持系統定義2.決策系統的功能與特點3.決策支持系統的組成 三、專家系統(ES)與決策支持系統(D…

實現Python+Django+Transformers庫中的BertTokenizer和BertModel來進行BERT預訓練,并將其應用于商品推薦功能

一、環境安裝準備 #git拉取 bert-base-chinese 文件#創建 虛擬運行環境python -m venv myicrplatenv#刷新source myicrplatenv/bin/activate#python Django 集成nacospip install nacos-sdk-python#安裝 Djangopip3 install Django5.1#安裝 pymysql settings.py 里面需要 # 強制…

Qt Creator + CMake 構建教程

此教程基于: Qt 6.7.4Qt Creator 15.0.1CMake 3.26.4 Qt 6 以下的版本使用 CMake 構建可能會存在一些問題. 目錄 新建窗體工程更新翻譯添加資源軟件部署(Deploy) 此教程描述了如何一步步在 Qt Creator 中使用 CMake 構建應用程序工程. 涉及 新建窗體工程, 更新翻譯, 添加資源, …

5個GitHub熱點開源項目!!

1.自托管 Moonlight 游戲串流服務:Sunshine 主語言:C,Star:14.4k,周增長:500 這是一個自托管的 Moonlight 游戲串流服務器端項目,支持所有 Moonlight 客戶端。用戶可以在自己電腦上搭建一個游戲…

【Mark】記錄用寶塔+Nginx+worldpress+域名遇到的跨域,301,127.0.0.1,CSS加載失敗問題

背景 想要用寶塔搭建worldpress,然后用域名直接轉https,隱藏掉ipport。 結果被折磨了1天,一直在死活在301,127.0.0.1打轉 還有css加載不了的情況 因為worldpress很多是301重定向的,所以改到最后我都不知道改了什么&am…