2023年排行前五的大規模語言模型(LLM)
截至2023年,人工智能正在風靡全球。它已經成為熱門的討論話題,吸引了數百萬人的關注,不僅限于技術專家和研究人員,還包括來自不同背景的個人。人們對人工智能熱情高漲的原因之一是其在人類多年來處理的各種形式的領域中所具備的能力,其中包括語言。語言是人類生活的一個組成部分,它幫助我們交流,理解我們周圍的事物,甚至幫助我們思考。但是,如今人工智能已經更有能力處理與人類水平甚至高于人類水平的語言。這是由于自然語言處理(NLP)和大型語言模型(LLMs)的進步,ChatGPT的背后就是其中之一,這是總部位于舊金山的初創公司OpenAI的偉大創舉。但是,OpenAI成為成功將其LLM技術推向公眾的公司之一。有許多大型和小型公司構建了許多此類類型的大型語言模型。在本文中,我們將概述大型語言模型以及世界上一些先進的LLM,準確地說,我們將討論其中的5個。需要注意的是,這些LLM的列表是通過各種來源的研究編制的,并不是基于排名的。
大型語言模型的精髓
近年來,自然語言處理(NLP)因計算機能夠存儲和處理大量自然文本數據的能力而受到迅猛發展。NLP的應用可以在我們使用了幾十年的各種技術中看到,如語音識別、聊天機器人等。自從機器學習出現以來,科學家們開始將NLP與最先進的機器學習技術相結合,以更高效地處理文本。但是,最近NLP由于強大的大型語言模型(LLMs)的出現而變得更加流行。
那么什么是大型語言模型,為什么它們如此強大?語言模型基本上是一種特殊類型的機器學習模型,可以高效地學習、理解和處理人類語言。通過從包含文本的數據集中學習,語言模型可以高度準確地預測下一個詞或句子。但是,當它們變得更大時,它們變得更加有趣和特殊。LLMs在非常大的文本數據集(數百萬或數十億的文本數據)上進行了訓練,并且需要大量的計算能力。比較之下,如果說語言模型就像花園,那么大型語言模型就像是茂密的森林。
LLMs如何工作?
正如我們所說,LLMs是機器學習模型,它們可以通過文本做很多事情,例如將一種語言翻譯成另一種語言,生成語言,回答問題等。但是它們是如何做到的呢?建立LLMs的可能性來自Google研究人員提出的一種特殊類型的神經網絡架構,稱為Transformer。
Transformer是一種專門用于在文本數據中執行魔術的神經網絡類型。它們非常適合有效地進行擴展,并且可以在非常大的文本語料庫上進行訓練,甚至是數十億甚至數萬億的文本!此外,與其他類型的神經網絡(如循環神經網絡)相比,變壓器可以更快地進行訓練。更有趣的是,Transformer可以并行訓練,這意味著可以同時利用多個計算資源(例如CPU或GPU)來加速學習過程,而RNN只能順序處理數據。
變壓器模型的另一個有趣的特點是自我注意技術。這種機制使得變壓器能夠學習語言的潛在含義,而不僅僅是逐個產生隨機相關的文本。由于具備了這種能力,今天的語言模型不僅僅是逐個輸出文本,而且它們通過提供大量的文本數據來學習語言的實際含義(就像人類一樣),包括語法、語義和上下文。
Google開發的Transformer模型的發明在人工智能和自然語言處理(NLP)領域取得了重大的成就。借助這種Transformer模型,許多大型、小型甚至初創公司正在構建LLMs,并將其用于不同的目的,如技術聊天支持、語音助手、內容生成、聊天機器人等等。我們無法討論當今存在的每個LLMs,因為它們有很多。因此,現在,讓我們討論2023年世界上存在的最先進的5個LLMs,這些LLMs如下:
1、GPT-4(OpenAI)
GPT-4,全稱為Generative Pre-trained Transformer-4,是OpenAI最先進且高度復雜的大型語言模型。它是繼成功推出搭載GPT-3.5的ChatGPT后于2023年3月14日發布的第四代語言模型。它配備了一流的推理和創造能力,超越了人們的想象。GPT-4是一個龐大的神經網絡,包含著驚人的1萬億參數,并在包含來自各種編程語言的代碼在內的大型文本數據集上進行了訓練。此外,GPT-4不僅精通文本處理,還展現出處理視覺數據(包括圖像)的能力。憑借其從文本和視覺輸入中理解和生成內容的能力,可以認為GPT-4是一種強大的多模態人工智能,連接了語言和視覺領域。
GPT-4的另一個有趣功能是它可以在單個請求中處理的數據量。OpenAI的前任語言模型可以在單個請求中處理多達3000個標記,但GPT-4可以在一個請求中處理多達25000個標記。這非常大,您實際上可以要求GPT-4在一次操作中對整個10頁PDF進行摘要。
更有趣的是,OpenAI的科學家和研究人員表示,GPT-4具有人工通用智能(AGI)的一瞥,而許多科學家認為在未來40或50年內可能不太可能實現。然而,根據OpenAI的博客文章,GPT-4并不是一個完美的系統,它可能會出現幻覺和錯誤的回答。
2、GPT-3(OpenAI)
GPT-3,全稱為Generative Pre-trained Transformer 3,是另一個基于Transformer的令人印象深刻的語言模型,于2020年6月11日由OpenAI推出,在2023年仍然是市場上最先進的LLMs之一。它使用先進的深度學習技術,如Transformer和注意機制,來處理和生成與人類編寫的文本難以區分的文本。
從本質上講,GPT-3非常龐大,大約有1750億個參數,使用先進的自然語言處理(NLP),并在包含維基百科、WebText2、書籍、文章和代碼等各種來源的數千兆字節的文本數據集上進行了訓練。這種復雜性使得GPT-3在語言處理方面具有卓越的能力,包括文本生成、語言翻譯和問題回答。此外,GPT-3在GitHub的大部分內容上進行了廣泛的訓練,使其在各種編程語言和概念的廣泛范圍內都具備了專業知識。
在GPT-3取得成功后,該公司再次推出了GPT-3的增強版本,稱為GPT-3.5,它正在驅動ChatGPT。
3、Gopher(DeepMind)
Gopher是由Google DeepMind開發的AI語言模型,專門針對閱讀理解、事實核查、理解有毒語言以及邏輯和常識任務等任務進行了訓練。
DeepMind的研究人員開發了一系列的語言模型,從4400萬參數到2800億參數,這些模型在來自各種來源的大量文本上進行了訓練。在這些語言模型中,2800億參數的模型在語言理解和生成方面表現出更強的能力,他們稱之為Gopher。在他們的研究中,他們發現Gopher在各種任務中超越了現有的語言模型,并達到了人類水平的專業水平,包括大規模多任務語言理解(MMLU),這是用于衡量大型語言模型理解和回應各種語言任務能力的新基準。這項研究表明,與其他語言模型(包括GPT-3)相比,Gopher在數學、科學、技術、人文學科和醫學等領域表現出色。
Gopher的設計目標是在基于對話的互動中表現出色,從而使其能夠通過聊天式的回應來解釋甚至復雜的主題。如果您訪問他們的公司博客,您可以看到Gopher以非常簡單的術語解釋細胞生物學的例子。
4、PaLM(Google)
PaLM,全稱為Pathways Language Model,是Google的一種先進的語言模型,旨在在單一模型內概括多個領域。它使用Pathways架構更好地理解語言,并消除了現有語言模型(如特定領域性、單一性等)的一些局限性。Pathways是一種相對較新且在Google進行的研究中不斷改進的神經網絡架構。Pathways使得AI系統能夠在多個領域中表現出色,而不僅僅是專注于一組單一的任務。它還使得AI模型成為多模態的,這意味著它們可以同時處理和理解來自不同模態(如文本、圖像和音頻)的信息。
PaLM是一個基于Transformer的語言模型,具有5400億個參數,它在語言理解、問題回答、算術、代碼、語言翻譯、邏輯推理、對話等各個領域表現出卓越的性能。更有趣的是,Google的研究人員將其PaLM模型整合到了一個真實世界的機器人中,通過添加傳感信息和機器人手勢和控制。這個機器人可以通過其PaLM大腦執行各種任務,包括進行與人類的有意義對話、理解并響應口頭指令、自主導航、使用機器臂操縱物體以及執行各種現實世界的任務。
PaLM是Google正在積極追求的研究領域之一,該公司正在開發新的、高性能的PaLM版本。事實上,他們最近推出了PaLM-2,該模型具有令人印象深刻的推理、編碼和多語言能力。
5、LaMDA(Google)
LaMDA,全稱為Language Model for Dialogue Applications,是Google于2020年早期進行的研究中開發的另一種語言模型。與其他語言模型不同,LaMDA主要在基于對話的文本上進行訓練,這對于對話非常有利。由于在對話中進行了訓練,LaMDA在進行人類水平有意義的對話方面表現出了異常的技能。LaMDA的這種能力非常出色,Google的一位前員工甚至認為LaMDA是有思想的。
LaMDA基于先進的NLP技術,采用了基于Transformer的神經網絡模型。根據Google的研究人員表示,將基于Transformer的模型與對話相結合,有可能使大型語言模型更擅長進行人類水平的對話,甚至最終可以學會談論幾乎任何事情。此外,在大量對話文本中進行訓練后,可以使用強化學習對LaMDA進行微調,使其在基于對話的任務中更難以區分出AI。
在2023年2月,Google將其最新版本的LaMDA集成到了名為Bard的聊天機器人中,該機器人現在在全球范圍內可用。然而,Google表示,他們已經將Bard背后的技術從LaMDA替換為PaLM-2。
其他值得一提的提名
LLaMA(Meta AI):LLaMA(Large Language Model Meta AI)是由Meta(前Facebook)開發的一系列開源LLMs。其中,LLaMA 1于2023年2月發布,被認為是最佳的開源語言模型之一,可用于各種NLP任務,而無需支付任何費用,除非您可能需要在家中運行GPU。LLaMA 1的第一個版本包括7、13、33和65億個參數模型。其中,Meta的研究人員發現,13億個參數的模型在大多數NLP任務中表現比GPT-3(1750億)更好。65億模型的表現更佳,可能與Google的PaLM模型競爭。
Claude(Anthropic):Claude是由Anthropic開發的一種類似于GPT-3的大型語言模型。與其他LLMs不同,Claude的訓練數據集主要由人類作者手動創建的,而不是自動收集的數據。這使得Claude能夠更好地理解并生成高質量的文本。此外,Anthropic表示Claude不是一個通用的大型語言模型,而是一個以人類作為參考的模型,其目標是在編寫時提供幫助和指導,而不僅僅是生成文本。
總結
在人工智能迅速發展的今天,大型語言模型(LLMs)已經成為人們熱議的話題。它們在自然語言處理(NLP)領域取得了巨大的成功,并且已經廣泛用于各種應用,從文本生成到問題回答,再到對話式AI。我們看到了許多公司不斷推出越來越強大的LLMs,這些模型在語言理解和生成方面超越了以前的記錄。在2023年,像GPT-4、GPT-3、Gopher、PaLM和LaMDA等最先進的LLMs展示了人工智能在理解和處理人類語言方面的顯著進展。不過,這些模型仍然面臨挑戰,如幻覺、錯誤回答等,但它們仍然為科研、商業和創新提供了巨大的機會。隨著技術不斷演進,LLMs可能會在更多領域帶來創新,為人類生活帶來積極的影響。
博文參考:
https://www.pycodemates.com/2023/06/large-language-models-overview-and-types-of-llm.html