2023年排行前五的大規模語言模型(LLM)

2023年排行前五的大規模語言模型(LLM)

截至2023年,人工智能正在風靡全球。它已經成為熱門的討論話題,吸引了數百萬人的關注,不僅限于技術專家和研究人員,還包括來自不同背景的個人。人們對人工智能熱情高漲的原因之一是其在人類多年來處理的各種形式的領域中所具備的能力,其中包括語言。語言是人類生活的一個組成部分,它幫助我們交流,理解我們周圍的事物,甚至幫助我們思考。但是,如今人工智能已經更有能力處理與人類水平甚至高于人類水平的語言。這是由于自然語言處理(NLP)和大型語言模型(LLMs)的進步,ChatGPT的背后就是其中之一,這是總部位于舊金山的初創公司OpenAI的偉大創舉。但是,OpenAI成為成功將其LLM技術推向公眾的公司之一。有許多大型和小型公司構建了許多此類類型的大型語言模型。在本文中,我們將概述大型語言模型以及世界上一些先進的LLM,準確地說,我們將討論其中的5個。需要注意的是,這些LLM的列表是通過各種來源的研究編制的,并不是基于排名的。

大型語言模型的精髓

近年來,自然語言處理(NLP)因計算機能夠存儲和處理大量自然文本數據的能力而受到迅猛發展。NLP的應用可以在我們使用了幾十年的各種技術中看到,如語音識別、聊天機器人等。自從機器學習出現以來,科學家們開始將NLP與最先進的機器學習技術相結合,以更高效地處理文本。但是,最近NLP由于強大的大型語言模型(LLMs)的出現而變得更加流行。

那么什么是大型語言模型,為什么它們如此強大?語言模型基本上是一種特殊類型的機器學習模型,可以高效地學習、理解和處理人類語言。通過從包含文本的數據集中學習,語言模型可以高度準確地預測下一個詞或句子。但是,當它們變得更大時,它們變得更加有趣和特殊。LLMs在非常大的文本數據集(數百萬或數十億的文本數據)上進行了訓練,并且需要大量的計算能力。比較之下,如果說語言模型就像花園,那么大型語言模型就像是茂密的森林。

LLMs如何工作?

正如我們所說,LLMs是機器學習模型,它們可以通過文本做很多事情,例如將一種語言翻譯成另一種語言,生成語言,回答問題等。但是它們是如何做到的呢?建立LLMs的可能性來自Google研究人員提出的一種特殊類型的神經網絡架構,稱為Transformer。

Transformer是一種專門用于在文本數據中執行魔術的神經網絡類型。它們非常適合有效地進行擴展,并且可以在非常大的文本語料庫上進行訓練,甚至是數十億甚至數萬億的文本!此外,與其他類型的神經網絡(如循環神經網絡)相比,變壓器可以更快地進行訓練。更有趣的是,Transformer可以并行訓練,這意味著可以同時利用多個計算資源(例如CPU或GPU)來加速學習過程,而RNN只能順序處理數據。

變壓器模型的另一個有趣的特點是自我注意技術。這種機制使得變壓器能夠學習語言的潛在含義,而不僅僅是逐個產生隨機相關的文本。由于具備了這種能力,今天的語言模型不僅僅是逐個輸出文本,而且它們通過提供大量的文本數據來學習語言的實際含義(就像人類一樣),包括語法、語義和上下文。

Google開發的Transformer模型的發明在人工智能和自然語言處理(NLP)領域取得了重大的成就。借助這種Transformer模型,許多大型、小型甚至初創公司正在構建LLMs,并將其用于不同的目的,如技術聊天支持、語音助手、內容生成、聊天機器人等等。我們無法討論當今存在的每個LLMs,因為它們有很多。因此,現在,讓我們討論2023年世界上存在的最先進的5個LLMs,這些LLMs如下:

1、GPT-4(OpenAI)

在這里插入圖片描述

GPT-4,全稱為Generative Pre-trained Transformer-4,是OpenAI最先進且高度復雜的大型語言模型。它是繼成功推出搭載GPT-3.5的ChatGPT后于2023年3月14日發布的第四代語言模型。它配備了一流的推理和創造能力,超越了人們的想象。GPT-4是一個龐大的神經網絡,包含著驚人的1萬億參數,并在包含來自各種編程語言的代碼在內的大型文本數據集上進行了訓練。此外,GPT-4不僅精通文本處理,還展現出處理視覺數據(包括圖像)的能力。憑借其從文本和視覺輸入中理解和生成內容的能力,可以認為GPT-4是一種強大的多模態人工智能,連接了語言和視覺領域。

GPT-4的另一個有趣功能是它可以在單個請求中處理的數據量。OpenAI的前任語言模型可以在單個請求中處理多達3000個標記,但GPT-4可以在一個請求中處理多達25000個標記。這非常大,您實際上可以要求GPT-4在一次操作中對整個10頁PDF進行摘要。

更有趣的是,OpenAI的科學家和研究人員表示,GPT-4具有人工通用智能(AGI)的一瞥,而許多科學家認為在未來40或50年內可能不太可能實現。然而,根據OpenAI的博客文章,GPT-4并不是一個完美的系統,它可能會出現幻覺和錯誤的回答。

2、GPT-3(OpenAI)

在這里插入圖片描述

GPT-3,全稱為Generative Pre-trained Transformer 3,是另一個基于Transformer的令人印象深刻的語言模型,于2020年6月11日由OpenAI推出,在2023年仍然是市場上最先進的LLMs之一。它使用先進的深度學習技術,如Transformer和注意機制,來處理和生成與人類編寫的文本難以區分的文本。

從本質上講,GPT-3非常龐大,大約有1750億個參數,使用先進的自然語言處理(NLP),并在包含維基百科、WebText2、書籍、文章和代碼等各種來源的數千兆字節的文本數據集上進行了訓練。這種復雜性使得GPT-3在語言處理方面具有卓越的能力,包括文本生成、語言翻譯和問題回答。此外,GPT-3在GitHub的大部分內容上進行了廣泛的訓練,使其在各種編程語言和概念的廣泛范圍內都具備了專業知識。

在GPT-3取得成功后,該公司再次推出了GPT-3的增強版本,稱為GPT-3.5,它正在驅動ChatGPT。

3、Gopher(DeepMind)

在這里插入圖片描述

Gopher是由Google DeepMind開發的AI語言模型,專門針對閱讀理解、事實核查、理解有毒語言以及邏輯和常識任務等任務進行了訓練。

DeepMind的研究人員開發了一系列的語言模型,從4400萬參數到2800億參數,這些模型在來自各種來源的大量文本上進行了訓練。在這些語言模型中,2800億參數的模型在語言理解和生成方面表現出更強的能力,他們稱之為Gopher。在他們的研究中,他們發現Gopher在各種任務中超越了現有的語言模型,并達到了人類水平的專業水平,包括大規模多任務語言理解(MMLU),這是用于衡量大型語言模型理解和回應各種語言任務能力的新基準。這項研究表明,與其他語言模型(包括GPT-3)相比,Gopher在數學、科學、技術、人文學科和醫學等領域表現出色。

Gopher的設計目標是在基于對話的互動中表現出色,從而使其能夠通過聊天式的回應來解釋甚至復雜的主題。如果您訪問他們的公司博客,您可以看到Gopher以非常簡單的術語解釋細胞生物學的例子。

4、PaLM(Google)

在這里插入圖片描述

PaLM,全稱為Pathways Language Model,是Google的一種先進的語言模型,旨在在單一模型內概括多個領域。它使用Pathways架構更好地理解語言,并消除了現有語言模型(如特定領域性、單一性等)的一些局限性。Pathways是一種相對較新且在Google進行的研究中不斷改進的神經網絡架構。Pathways使得AI系統能夠在多個領域中表現出色,而不僅僅是專注于一組單一的任務。它還使得AI模型成為多模態的,這意味著它們可以同時處理和理解來自不同模態(如文本、圖像和音頻)的信息。

PaLM是一個基于Transformer的語言模型,具有5400億個參數,它在語言理解、問題回答、算術、代碼、語言翻譯、邏輯推理、對話等各個領域表現出卓越的性能。更有趣的是,Google的研究人員將其PaLM模型整合到了一個真實世界的機器人中,通過添加傳感信息和機器人手勢和控制。這個機器人可以通過其PaLM大腦執行各種任務,包括進行與人類的有意義對話、理解并響應口頭指令、自主導航、使用機器臂操縱物體以及執行各種現實世界的任務。

PaLM是Google正在積極追求的研究領域之一,該公司正在開發新的、高性能的PaLM版本。事實上,他們最近推出了PaLM-2,該模型具有令人印象深刻的推理、編碼和多語言能力。

5、LaMDA(Google)

在這里插入圖片描述

LaMDA,全稱為Language Model for Dialogue Applications,是Google于2020年早期進行的研究中開發的另一種語言模型。與其他語言模型不同,LaMDA主要在基于對話的文本上進行訓練,這對于對話非常有利。由于在對話中進行了訓練,LaMDA在進行人類水平有意義的對話方面表現出了異常的技能。LaMDA的這種能力非常出色,Google的一位前員工甚至認為LaMDA是有思想的。

LaMDA基于先進的NLP技術,采用了基于Transformer的神經網絡模型。根據Google的研究人員表示,將基于Transformer的模型與對話相結合,有可能使大型語言模型更擅長進行人類水平的對話,甚至最終可以學會談論幾乎任何事情。此外,在大量對話文本中進行訓練后,可以使用強化學習對LaMDA進行微調,使其在基于對話的任務中更難以區分出AI。

在2023年2月,Google將其最新版本的LaMDA集成到了名為Bard的聊天機器人中,該機器人現在在全球范圍內可用。然而,Google表示,他們已經將Bard背后的技術從LaMDA替換為PaLM-2。

其他值得一提的提名

LLaMA(Meta AI):LLaMA(Large Language Model Meta AI)是由Meta(前Facebook)開發的一系列開源LLMs。其中,LLaMA 1于2023年2月發布,被認為是最佳的開源語言模型之一,可用于各種NLP任務,而無需支付任何費用,除非您可能需要在家中運行GPU。LLaMA 1的第一個版本包括7、13、33和65億個參數模型。其中,Meta的研究人員發現,13億個參數的模型在大多數NLP任務中表現比GPT-3(1750億)更好。65億模型的表現更佳,可能與Google的PaLM模型競爭。

Claude(Anthropic):Claude是由Anthropic開發的一種類似于GPT-3的大型語言模型。與其他LLMs不同,Claude的訓練數據集主要由人類作者手動創建的,而不是自動收集的數據。這使得Claude能夠更好地理解并生成高質量的文本。此外,Anthropic表示Claude不是一個通用的大型語言模型,而是一個以人類作為參考的模型,其目標是在編寫時提供幫助和指導,而不僅僅是生成文本。

總結

在人工智能迅速發展的今天,大型語言模型(LLMs)已經成為人們熱議的話題。它們在自然語言處理(NLP)領域取得了巨大的成功,并且已經廣泛用于各種應用,從文本生成到問題回答,再到對話式AI。我們看到了許多公司不斷推出越來越強大的LLMs,這些模型在語言理解和生成方面超越了以前的記錄。在2023年,像GPT-4、GPT-3、Gopher、PaLM和LaMDA等最先進的LLMs展示了人工智能在理解和處理人類語言方面的顯著進展。不過,這些模型仍然面臨挑戰,如幻覺、錯誤回答等,但它們仍然為科研、商業和創新提供了巨大的機會。隨著技術不斷演進,LLMs可能會在更多領域帶來創新,為人類生活帶來積極的影響。

博文參考:
https://www.pycodemates.com/2023/06/large-language-models-overview-and-types-of-llm.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/39866.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/39866.shtml
英文地址,請注明出處:http://en.pswp.cn/news/39866.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CS5263替代停產IT6561連接DP轉HDMI音視頻轉換器ASL 集睿致遠CS5263設計電路原理圖

ASL集睿致遠CS5263是一款DP1.4到HDMI2.0b轉換器芯片,設計用于將DP1.4源連接到HDMI2.0b接收器。 CS5263功能特性: DP接口包括4條主通道、輔助通道和HPD信號。接收器支持每通道5.4Gbps(HBR2)數據速率。DP接收機結合了HDCP1.4和HDCP…

NVIDIA Omniverse與GPT-4結合生成3D內容

全球各行業對 3D 世界和虛擬環境的需求呈指數級增長。3D 工作流程是工業數字化的核心,開發實時模擬來測試和驗證自動駕駛車輛和機器人,操作數字孿生來優化工業制造,并為科學發現鋪平新的道路。 如今,3D 設計和世界構建仍然是高度…

C#的 Settings.Settings配置文件的使用方法

1、定義 在Settings.settings文件中定義配置字段。把作用范圍定義為:User則運行時可更改(用戶范圍的字段數據更改存儲在用戶信息中,不在該程序文件中),Applicatiion則運行時不可更改。可以使用數據網格視圖(VS軟件的Properties 下面的Setting…

常見的Redux問題

在React中使用Redux的面試題目通常涵蓋了Redux的基本概念、工作原理、如何在React應用中集成Redux等方面。以下是一些常見的Redux問題: Redux的核心概念: 1、什么是Redux?它解決了什么問題? 它是一個狀態管理庫,解決…

2023國賽數學建模思路 - 復盤:校園消費行為分析

文章目錄 0 賽題思路1 賽題背景2 分析目標3 數據說明4 數據預處理5 數據分析5.1 食堂就餐行為分析5.2 學生消費行為分析 建模資料 0 賽題思路 (賽題出來以后第一時間在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 賽題背景 校園一卡通是集…

個保新標 | 《信息安全技術 敏感個人信息處理安全要求》(征求意見稿)發布

8 月 9 日,全國信息安全標準化技術委員會公開發布關于國家標準《信息安全技術 敏感個人信息處理安全要求》(征求意見稿)(以下簡稱《標準》)的通知,面向社會廣泛征求意見。 《標準》的制定背景是為支撐《個人…

《Go 語言第一課》課程學習筆記(一)

配好環境:選擇一種最適合你的 Go 安裝方法 選擇 Go 版本 一般情況下,建議采用最新版本。因為 Go 團隊發布的 Go 語言穩定版本的平均質量一直是很高的,少有影響使用的重大 bug。可以根據不同實際項目需要或開源社區的情況使用不同的版本。 有…

攻擊LNMP架構Web應用

環境配置(centos7) 1.php56 php56-fpm //配置epel yum install epel-release rpm -ivh http://rpms.famillecollet.com/enterprise/remi-release-7.rpm//安裝php56,php56-fpm及其依賴 yum --enablereporemi install php56-php yum --enablereporemi install php…

常見的字符編碼有哪些?有什么區別?

目錄 面試回答 知識擴展 Unicode 和 UTF-8 有啥關系? 有了 UTF-8,為什么要出現 GBK 為什么會出現亂碼 面試回答 就像電報只能發出“滴”和“答”聲一樣,計算機只認為 0 和1 兩種字符,但是,人類的文字是多種多樣的&…

B樹和B+樹區別

B樹和B樹的區別 B樹 B樹被稱為平衡樹,在B樹中,一個節點可以有兩個以上的子節點。B樹的高度為log M N。在B樹中,數據按照特定的順序排序,最小值在左側,最大值在右側。 B樹是一種平衡的多分樹,通常我們說m階…

什么是網絡地址轉換 (NAT)

網絡地址轉換(NAT)是更改源和目標 IP 地址和端口的過程,地址轉換減少了對 IPv4 公共地址的需求,并隱藏了專用網絡地址范圍,該過程通常由路由器或防火墻完成。 NAT是如何工作的 NAT 允許單個設備(如路由器…

rhel 8.7 部署 keepalived+haproxy 實現 mysql 雙主高可用場景

文章目錄 [toc]部署 mysql關閉防火墻關閉 selinux創建相關目錄創建 mysql 用戶配置 PATH 變量驗證 mysql 命令切換到 mysql 用戶在 172.72.0.116 生成配置文件在 172.72.0.137 生成配置文件mysql 初始化啟動 mysql 服務修改 mysql 的 root 用戶密碼配置主從關系172.72.0.137 配…

數字化格局下的引領者:百望云通過強制性國家標準GB18030-2022最高級別認證

8月1日,強制性國家標準GB 18030-2022《信息技術 中文編碼字符集》實施。8月15日,百望云“綠頁閱讀器”正式通過中國電子技術標準化研究院強制性國家標準GB18030-2022《信息技術 中文編碼字符集》最高級(實現級別3)認證,彰顯了百望云在數字化信息處理領域對標國家標準的卓越技術…

Android CameraX適配Android13的踩坑之路

AndroidCameraX適配Android13的踩坑之路 前言: 最近把AGP插件升級到8.1.0,新建項目的時候目標版本和編譯版本都是33,發現之前的demo使用Camerax拍照和錄像都失敗了,于是查看了一下官網和各種資料,找到了Android13的適…

網絡編程(12): TCP重傳、滑動窗口、流量控制、擁塞控制

1、TCP重傳機制 通過序列號和確認號確保可靠傳輸,當發送端發送數據給接收到,接收端會返回一個確認號,表示收到消息了 超時重傳:沒有在指定時間內收到ACK報文 超時重傳的兩種可能:數據包丟失、確認包丟失超時重傳時間RT…

第十三課:QtCmd 命令行終端應用程序開發

功能描述:開發一個類似于 Windows 命令行提示符或 Linux 命令行終端的應用程序 一、最終演示效果 QtCmd 不是因為它是 Qt 的組件,而是采用 Qt 開發了一個類似 Windows 命令提示符或者 Linux 命令行終端的應用程序,故取名為 QtCmd。 上述演示…

FreeMarker系列--list的用法(長度,遍歷,下標,嵌套,排序)

原文網址&#xff1a;FreeMarker系列--list的用法&#xff08;長度,遍歷,下標,嵌套,排序&#xff09;_IT利刃出鞘的博客-CSDN博客 簡介 本文介紹FreeMarker的list的用法。 大小 Java ArrayList<String> list new ArrayList<String>(); Freemaker ${list?s…

W5500-EVB-PICO 做UDP Server進行數據回環測試(七)

前言 前面我們用W5500-EVB-PICO 開發板在TCP Client和TCP Server模式下&#xff0c;分別進行數據回環測試&#xff0c;本章我們將用開發板在UDP Server模式下進行數據回環測試。 UDP是什么&#xff1f;什么是UDP Server&#xff1f;能干什么&#xff1f; UDP (User Dataqram P…

圖數據庫_Neo4j學習cypher語言_使用CQL命令002_刪除節點_刪除屬性_結果排序Order By---Neo4j圖數據庫工作筆記0006

然后我們再來看如何刪除節點 可以看到首先 我們這里 比如我要刪除張三 可以看到 match (n:student) where n.name = "張三" delete n 這樣就是刪除了student集合中,name是張三的節點 然后我們再來看 如何來刪除關系 match (n:student)-[r]->(m:student) where…

機器學習、cv、nlp的一些前置知識

為節省篇幅&#xff0c;不標注文章來源和文章的問題場景。大部分是我的通俗理解。 文章目錄 向量關于向量的偏導數&#xff1a;雅可比矩陣二階導數矩陣&#xff1a;海森矩陣隨機變量隨機場伽馬函數beta分布數學術語坐標上升法協方差訓練集&#xff0c;驗證集&#xff0c;測試集…