在上一篇文章中,我們已經科普了什么是自然語言處理(NLP)、常見用例及其與向量數據庫的結合。今天,依然是「X」Embedding in NLP 系列專題,本文為初階第二篇,我們將深入介紹在 2023 年爆火的大語言模型 NLP 模型,包括 BERT、XLNet 等基礎模型和 GPT、PaLM 等。
01.火爆 2023 年的 10 大大語言模型
大語言模型(LLM)是一種機器學習模型,可以執行各種 NLP 任務,包括文本翻譯、回答問題、根據知識庫分類和生成詞匯等。大語言模型中的“大”體現在其架構使用的參數數量上,常見的 LLM 都包含數十億個參數。以下是在 2023 年爆火且備受關注的 LLM。
OpenAI 推出的 GPT 系列
*GPT,全稱 Generative pre-trained transformers,即生成式預訓練 Transformer 模型
GPT-3
-
于2021年發布,包含 1750 億個參數。
-
能夠完成翻譯、問答、寫作論文,甚至生成代碼等任務。
-
從模型架構而言,GPT-3 是只帶有解碼器(decoder)的 transformer 模型。
-
是最后一個由 OpenAI 公開參數數量的 GPT 模型。
-
自 2022 年 9 月起由微軟獨家使用。
GPT-3.5
-
2022 年推出的升級版 GPT 模型,包含參數更少。
-
ChatGPT 訓練所用的模型是基于 GPT-3.5 模型微調而來的。GPT-3.5 一經推出即迅速走紅,短短五天內吸引 100 萬用戶,用戶總數在 2 個月內達到 1 億。
-
GPT-3.5 模型基于截至 2021 年 9 月的數據進行訓練,比之前版本的模型更具有時效性。
-
必應(Bing)搜索引擎中最初集成了 GPT-3.5,但目前使用的是 GPT-4。
GPT-4
-
GPT 系列中的最新版本,于 2023 年發布。
-
GPT-4 是多模態模型,支持圖像和文本類型的輸入。
-
在微軟 Azure AI 的人工智能超級計算機上訓練,比以往任何模型都更具創造力和協作性。
Google 推出的 PaLM 2
-
于 2023 年推出,展現 Google 在機器學習和 Responsible AI 領域積累的成果。
-
相比 PaLM,PaLM 2 基于并行多語言文本和更大的語料庫進行預訓練。
-
在高級推理、翻譯和代碼生成方面表現出色。
Meta 和 Microsoft 推出的 LLama2
-
于 2023 年發布,提供三種參數規格(70 億、130 億和 700 億)的基礎模型。
-
LLama 2 Chat 包括基礎模型和針對對話功能微調的模型。
-
功能豐富,性能強大,專為查詢和自然語言理解等任務設計。
-
Meta 專注于打造教育型應用產品,因此 LLaMA-2 是適用于 EdTech 平臺理想的 AI 助手。
Anthropic 推出的 Claude 2
-
于 2023 年推出,擅長復雜的推理任務。
-
聚焦于 Constitutional AI,引導 AI 根據一些原則或規則進行自我完善和監督,避免產生有害或不友善的輸出。
-
Claude 2 是一個友好的助手,能夠完成用戶發出的各種自然語言指令。
xAI 推出的 Grok-1
-
埃隆·馬斯克的公司 xAI 于 2023 年宣布推出 Grok-1,用于巧妙回答幾乎所有問題。
-
靈感來源于《銀河系漫游指南》。
-
通過 𝕏 平臺實時獲取真實世界中的知識。
-
技術創新研究所(Technology Innovation Institute)推出的 Falcon
-
于 2023 年開源的模型。
-
包含 1800 億參數,參數數量超過 Hugging Face Open LLM 排行榜上的 Llama。
-
基于高質量數據集訓練,數據集中包含文本和代碼,涵蓋各種語言和方言。
Cohere 推出的 Cohere
-
2022 年由加拿大初創公司 Cohere 推出的開源多語言模型。
-
基于多樣的數據集訓練,能夠理解超過 100 種語言的文本。
-
Oracle 和 Salesforce 產品中已接入 Cohere,主要用于語言生成、文本內容概括和情感分析等任務。
02.10 大基礎 NLP 模型
BERT(基于 Transformer 的雙向編碼器表示技術)
-
BERT 最初于 2018 年由 Jacob Devlin 在其論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中首次提出。
-
BERT 模型的主要突破是,它在訓練過程中查看文本時,以雙向方式掃描文本,不是從左到右,也不是從左到左和從右到左的組合。
-
BERT 模型有兩種配置——BERT(base)和 BERT(large),區別在于可配置參數數量。BERT(base)包含 1.1 億參數, BERT(large)包含 3.45 億參數。
XLNet
-
XLNet 于 2019 年在論文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》中發布。
-
XLNet使用排列語言建模(Permutation Language Modeling) 來融合自回歸(autoregressive, AR)和去噪自編碼(autoencoding, AE) 模型的優點。
-
傳統的模型基于前一個詞的上下文預測句子中的詞。但與之不同的是,XLNet 的排列語言建模考慮了詞之間的相互依賴關系。
-
XLNet 性能比 BERT 提高了 2-15%。
RoBERTa(強力優化的 BERT 方法)
-
RoBERTa 于 2019 年在論文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中提出。
-
RoBERTa 改進了 BERT 的架構和訓練流程。具體而言,RoBERTa 去掉下一句預測(NSP)任務,采用了更大的訓練數據集,并使用了動態掩碼替換靜態掩碼。
-
RoBERTa 性能比 BERT 提高了 2-20%。
ALBERT(輕量級的 BERT)
-
ALBERT 模型于 2019 年在論文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》中提出。
-
ALBERT 基于 BERT 模型改進,其主要亮點是在保持性能的同時顯著減少了參數數量。
-
AlBERT 實現了跨層參數共享。也就是說,12 層 Encoder 共享一套參數。而 BERT 中每層 Encoder 都有一組參數。
StructBERT
-
StructBERT 于 2019 年在論文《StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding》中提出。
-
StructBERT 基于 BERT,將語言結構信息引入到預訓練任務中。
-
StructBERT 還引入了單詞結構目標(WSO),它有助于模型學習單詞的排序。
T5(文本到文本的 Transformer)
-
T5 在 2019 年的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中被提出。T5 全稱為“Text-To-Text Transfer Transformer”。
-
T5 作者還發布了一個數據集,取名為“Colossal Clean Crawled Corpus (超大型干凈爬取數據)”,簡稱 C4。
-
T5 將所有 NLP 任務都轉化成 Text-to-Text (文本到文本)任務。
-
T5 模型提供 5 種不同的參數配置:T5-small(6000 萬參數)、T5-base(2.2 億參數)、T5-large(7.7 億參數)、T5-3B(30 億參數)、T5-11B(110 億參數)。
SentenceTransformers
-
SentenceTransformers 最初于 2019 年在發論文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》中發表。
-
SentenceTransformers 是一個可以用于句子、文本和圖像 embedding 的 Python 庫
-
SentenceTransformers 可以計算超過 100 種語言的句子或文本 embedding。
-
SentenceTransformers 框架基于 PyTorch 和 Transformers,提供許多針對各種任務調優的預訓練模型。
ERNIE(通過知識集成的增強表示)
-
ERNIE 由百度開發,于 2019 年在論文《ERNIE: Enhanced Language Representation with Informative Entities》中首次被介紹,并由百度的研究人員在計算語言學協會(ACL)會議上展示。
-
ERNIE 將現實知識整合到預訓練的語言模型中,從而理解人類語言的細微差別并提高各種 NLP 任務的表現。
-
ERNIE 提供不同版本。而且,ERNIE 隨時間推移不斷更新和完善,從而在廣泛的 NLP 任務上取得更好的性能。
CTRL(可控文本生成)
-
CTRL 由 Salesforce Research 在 2019 年 NeurIPS 論文《CTRL: A Conditional Transformer Language Model》中提出。
-
CTRL 允許用戶控制生成文本的風格和內容。
-
CTRL 模型能夠生成多樣且可控的文本,用戶對語言生成過程更可控。
ELECTRA
-
ELECTRA 在 2020 年的論文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》中提出。
-
ELECTRA 提出了新的預訓練任務和框架,把生成式的 Masked language model(MLM) 預訓練任務改成了判別式的 Replaced token detection(RTD) 任務,判斷當前token是否被語言模型替換過。
-
ELECTRA體積越小,相比于BERT就提升得越明顯。
本文由 mdnice 多平臺發布