「X」Embedding in NLP|一文讀懂 2023 年最流行的 20 個 NLP 模型

在上一篇文章中,我們已經科普了什么是自然語言處理(NLP)、常見用例及其與向量數據庫的結合。今天,依然是「X」Embedding in NLP 系列專題,本文為初階第二篇,我們將深入介紹在 2023 年爆火的大語言模型 NLP 模型,包括 BERT、XLNet 等基礎模型和 GPT、PaLM 等。

01.火爆 2023 年的 10 大大語言模型

大語言模型(LLM)是一種機器學習模型,可以執行各種 NLP 任務,包括文本翻譯、回答問題、根據知識庫分類和生成詞匯等。大語言模型中的“大”體現在其架構使用的參數數量上,常見的 LLM 都包含數十億個參數。以下是在 2023 年爆火且備受關注的 LLM。

OpenAI 推出的 GPT 系列

*GPT,全稱 Generative pre-trained transformers,即生成式預訓練 Transformer 模型

GPT-3
  • 于2021年發布,包含 1750 億個參數。

  • 能夠完成翻譯、問答、寫作論文,甚至生成代碼等任務。

  • 從模型架構而言,GPT-3 是只帶有解碼器(decoder)的 transformer 模型。

  • 是最后一個由 OpenAI 公開參數數量的 GPT 模型。

  • 自 2022 年 9 月起由微軟獨家使用。

GPT-3.5
  • 2022 年推出的升級版 GPT 模型,包含參數更少。

  • ChatGPT 訓練所用的模型是基于 GPT-3.5 模型微調而來的。GPT-3.5 一經推出即迅速走紅,短短五天內吸引 100 萬用戶,用戶總數在 2 個月內達到 1 億。

  • GPT-3.5 模型基于截至 2021 年 9 月的數據進行訓練,比之前版本的模型更具有時效性。

  • 必應(Bing)搜索引擎中最初集成了 GPT-3.5,但目前使用的是 GPT-4。

GPT-4
  • GPT 系列中的最新版本,于 2023 年發布。

  • GPT-4 是多模態模型,支持圖像和文本類型的輸入。

  • 在微軟 Azure AI 的人工智能超級計算機上訓練,比以往任何模型都更具創造力和協作性。

Google 推出的 PaLM 2

  • 于 2023 年推出,展現 Google 在機器學習和 Responsible AI 領域積累的成果。

  • 相比 PaLM,PaLM 2 基于并行多語言文本和更大的語料庫進行預訓練。

  • 在高級推理、翻譯和代碼生成方面表現出色。

Meta 和 Microsoft 推出的 LLama2

  • 于 2023 年發布,提供三種參數規格(70 億、130 億和 700 億)的基礎模型。

  • LLama 2 Chat 包括基礎模型和針對對話功能微調的模型。

  • 功能豐富,性能強大,專為查詢和自然語言理解等任務設計。

  • Meta 專注于打造教育型應用產品,因此 LLaMA-2 是適用于 EdTech 平臺理想的 AI 助手。

Anthropic 推出的 Claude 2

  • 于 2023 年推出,擅長復雜的推理任務。

  • 聚焦于 Constitutional AI,引導 AI 根據一些原則或規則進行自我完善和監督,避免產生有害或不友善的輸出。

  • Claude 2 是一個友好的助手,能夠完成用戶發出的各種自然語言指令。

xAI 推出的 Grok-1

  • 埃隆·馬斯克的公司 xAI 于 2023 年宣布推出 Grok-1,用于巧妙回答幾乎所有問題。

  • 靈感來源于《銀河系漫游指南》。

  • 通過 𝕏 平臺實時獲取真實世界中的知識。

  • 技術創新研究所(Technology Innovation Institute)推出的 Falcon

  • 于 2023 年開源的模型。

  • 包含 1800 億參數,參數數量超過 Hugging Face Open LLM 排行榜上的 Llama。

  • 基于高質量數據集訓練,數據集中包含文本和代碼,涵蓋各種語言和方言。

Cohere 推出的 Cohere

  • 2022 年由加拿大初創公司 Cohere 推出的開源多語言模型。

  • 基于多樣的數據集訓練,能夠理解超過 100 種語言的文本。

  • Oracle 和 Salesforce 產品中已接入 Cohere,主要用于語言生成、文本內容概括和情感分析等任務。

02.10 大基礎 NLP 模型

BERT(基于 Transformer 的雙向編碼器表示技術)

  • BERT 最初于 2018 年由 Jacob Devlin 在其論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中首次提出。

  • BERT 模型的主要突破是,它在訓練過程中查看文本時,以雙向方式掃描文本,不是從左到右,也不是從左到左和從右到左的組合。

  • BERT 模型有兩種配置——BERT(base)和 BERT(large),區別在于可配置參數數量。BERT(base)包含 1.1 億參數, BERT(large)包含 3.45 億參數。

XLNet

  • XLNet 于 2019 年在論文《XLNet: Generalized Autoregressive Pretraining for Language Understanding》中發布。

  • XLNet使用排列語言建模(Permutation Language Modeling) 來融合自回歸(autoregressive, AR)和去噪自編碼(autoencoding, AE) 模型的優點。

  • 傳統的模型基于前一個詞的上下文預測句子中的詞。但與之不同的是,XLNet 的排列語言建模考慮了詞之間的相互依賴關系。

  • XLNet 性能比 BERT 提高了 2-15%。

RoBERTa(強力優化的 BERT 方法)

  • RoBERTa 于 2019 年在論文《RoBERTa: A Robustly Optimized BERT Pretraining Approach》中提出。

  • RoBERTa 改進了 BERT 的架構和訓練流程。具體而言,RoBERTa 去掉下一句預測(NSP)任務,采用了更大的訓練數據集,并使用了動態掩碼替換靜態掩碼。

  • RoBERTa 性能比 BERT 提高了 2-20%。

ALBERT(輕量級的 BERT)

  • ALBERT 模型于 2019 年在論文《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》中提出。

  • ALBERT 基于 BERT 模型改進,其主要亮點是在保持性能的同時顯著減少了參數數量。

  • AlBERT 實現了跨層參數共享。也就是說,12 層 Encoder 共享一套參數。而 BERT 中每層 Encoder 都有一組參數。

StructBERT

  • StructBERT 于 2019 年在論文《StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding》中提出。

  • StructBERT 基于 BERT,將語言結構信息引入到預訓練任務中。

  • StructBERT 還引入了單詞結構目標(WSO),它有助于模型學習單詞的排序。

T5(文本到文本的 Transformer)

  • T5 在 2019 年的論文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中被提出。T5 全稱為“Text-To-Text Transfer Transformer”。

  • T5 作者還發布了一個數據集,取名為“Colossal Clean Crawled Corpus (超大型干凈爬取數據)”,簡稱 C4。

  • T5 將所有 NLP 任務都轉化成 Text-to-Text (文本到文本)任務。

  • T5 模型提供 5 種不同的參數配置:T5-small(6000 萬參數)、T5-base(2.2 億參數)、T5-large(7.7 億參數)、T5-3B(30 億參數)、T5-11B(110 億參數)。

SentenceTransformers

  • SentenceTransformers 最初于 2019 年在發論文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》中發表。

  • SentenceTransformers 是一個可以用于句子、文本和圖像 embedding 的 Python 庫

  • SentenceTransformers 可以計算超過 100 種語言的句子或文本 embedding。

  • SentenceTransformers 框架基于 PyTorch 和 Transformers,提供許多針對各種任務調優的預訓練模型。

ERNIE(通過知識集成的增強表示)

  • ERNIE 由百度開發,于 2019 年在論文《ERNIE: Enhanced Language Representation with Informative Entities》中首次被介紹,并由百度的研究人員在計算語言學協會(ACL)會議上展示。

  • ERNIE 將現實知識整合到預訓練的語言模型中,從而理解人類語言的細微差別并提高各種 NLP 任務的表現。

  • ERNIE 提供不同版本。而且,ERNIE 隨時間推移不斷更新和完善,從而在廣泛的 NLP 任務上取得更好的性能。

CTRL(可控文本生成)

  • CTRL 由 Salesforce Research 在 2019 年 NeurIPS 論文《CTRL: A Conditional Transformer Language Model》中提出。

  • CTRL 允許用戶控制生成文本的風格和內容。

  • CTRL 模型能夠生成多樣且可控的文本,用戶對語言生成過程更可控。

ELECTRA

  • ELECTRA 在 2020 年的論文《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》中提出。

  • ELECTRA 提出了新的預訓練任務和框架,把生成式的 Masked language model(MLM) 預訓練任務改成了判別式的 Replaced token detection(RTD) 任務,判斷當前token是否被語言模型替換過。

  • ELECTRA體積越小,相比于BERT就提升得越明顯。

本文由 mdnice 多平臺發布

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/163563.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/163563.shtml
英文地址,請注明出處:http://en.pswp.cn/news/163563.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

小白也看的懂的爬取視頻操作

1.獲取一段視頻 可以直接從抖音下,也可以從b站上爬取(注意法律謝謝) 保護原創 b站的視頻 直接復制網址鏈接到嗶哩嗶哩(bilibili)視頻解析下載 - 保存B站視頻到手機、電腦 去就好了,

Docker的入門

Docker的入門 防火墻Docker的命令鏡像相關的命令運行容器容器相關的命令 Docker作為一個軟件集裝箱化平臺,可以讓開發者構建應用程序時,將它與其依賴環境一起打包到一個容器中,然后很容易地發布和應用到任意平臺中。 docker有3大核心&#xf…

如何弱化市場大環境帶來的影響?私域電商和裂變營銷引來新趨勢!

弱化市場大環境帶來的影響需要從多個方面入手,包括深入了解市場和行業、建立品牌優勢、多元化經營、優化供應鏈管理、加強客戶關系管理、靈活應對市場變化等。同時需要注意不同領域和行業的市場變化和政策調整,及時調整經營策略和業務結構,保…

WPF實戰項目十七(客戶端):數據等待加載彈框動畫

1、在Common文件夾下新建文件夾Events,新建擴展類UpdateLoadingEvent public class UpdateModel {public bool IsOpen { get; set; }}internal class UpdateLoadingEvent : PubSubEvent<UpdateModel>{} 2、新建一個靜態擴展類DialogExtensions來編寫注冊和推送等待消息…

獲取ip屬地(ip2region本地離線包-超簡單)

背景 最近有涉及要顯示ip屬地&#xff0c;但我想白嫖&#xff0c;結果就是白嫖的api接口太慢了&#xff0c;要延遲3到4秒左右&#xff0c;很影響體驗&#xff0c;而且不一定穩定。 結果突然看到了這個【ip2region】開源項目&#xff0c;離線識別ip屬地&#xff0c;精度自己測…

Public Key Retrieval is not allowed

出現這個錯誤的原因可能是 MySQL 連接配置中的某些設置限制了公鑰的檢索。要解決這個問題&#xff0c;可以嘗試以下方法&#xff1a; 設置參數&#xff1a;在 MySQL 連接 URL 或連接配置中添加參數 ?allowPublicKeyRetrievaltrue?。 更新 MySQL 驅動程序&#xff1a;如果您使…

編譯安裝報錯:configure: error: cannot guess build type; you must specify one

1、編譯安裝報錯 configure: error: cannot guess build type; you must specify one 該報錯信息翻過過來的意思是&#xff1a;無法猜測編譯 操作系統類型,請指定一個 2、解決方法 在原本的編譯安裝語句后面加上一句&#xff1a; “--buildarm-linux ” &#xff0c;這句話…

詳解開源數據庫審計平臺Yearning

基本概念 數據庫審計&#xff08;簡稱DBAudit&#xff09;能夠實時記錄網絡上的數據庫活動&#xff0c;對數據庫操作進行細粒度審計的合規性管理&#xff0c;對數據庫遭受到的風險行為進行告警&#xff0c;對攻擊行為進行阻斷。它通過對用戶訪問數據庫行為的記錄、分析和匯報&…

無人智能貨柜:提升購物體驗

無人智能貨柜&#xff1a;提升購物體驗 隨著移動支付的普及&#xff0c;人們日常生活中的主要場景已經滲透了這一支付方式。同時&#xff0c;無人智能貨柜作為購物的重要渠道&#xff0c;正在嶄露頭角。通過人工智能、圖像識別和物聯網技術的應用&#xff0c;無人智能貨柜將使購…

什么是復費率電表?

隨著科技的不斷進步和人們對能源管理的日益重視&#xff0c;復費率電表逐漸成為我國電力系統中不可或缺的一員。復費率電表是一種能夠實現電能計量、峰谷電價劃分以及負荷控制等多功能的智能電表&#xff0c;它采用先進的通信技術和計算機算法&#xff0c;對用戶的用電行為進行…

nginx.conf 配置文件 詳細解釋

文章目錄 nginx.conf 是 Nginx 的主要配置文件&#xff0c;其中可以配置許多模塊來定義服務器行為。以下是一些常見的 Nginx 模塊以及它們的作用&#xff1a;1. **http 模塊**&#xff1a;2. **server 模塊**&#xff1a;3. **location 模塊**&#xff1a;4. **events 模塊**&a…

軟件系統測試有哪些測試流程?系統測試報告編寫注意事項

在軟件開發的過程中&#xff0c;系統測試是至關重要的一環&#xff0c;它的目的是驗證和評估軟件產品是否符合預期的質量標準&#xff0c;以確保系統的穩定性、可靠性和安全性。 一、軟件系統測試的測試流程 1、需求分析與測試計劃制定&#xff1a;根據需求分析確定測試目標、…

軟件開發及交付的項目管理角色

在軟件開發及交付過程中&#xff0c;通常會涉及不同的角色和職責&#xff0c;包括業務角色、技術角色和管理角色。這些角色在項目管理中發揮著不同的作用&#xff0c;以確保項目的成功和交付高質量的產品。 業務角色&#xff1a;包括產品經理、業務分析師和業務運營人員等職位…

外貿電商網站用什么服務器好?

外貿電商網站用什么服務器好&#xff1f; 電商網站選好域名后&#xff0c;接著就是為網站選擇一個好的網站服務器&#xff0c;截止2015年初&#xff0c;國內站長中約有三百多萬的網站存放在美國服務器&#xff0c;美國服務器為什么會有如此之多的用戶選擇使用呢&#xff0c;站…

張弛聲音變現課,青春劇配音實用攻略

在為青春劇添聲時&#xff0c;配音藝術家須要捕獲并傳達劇中年輕角色的活潑精神、成長道路上的激情&#xff0c;以及他們在面對友情、愛情和理想時的情緒起伏。青春劇特別關注年輕人的成長故事&#xff0c;著重描繪他們在成長中的經歷和變化。下面是一些為青春劇配音的建議&…

TP5制作圖片壓縮包

目標:將多張圖片制成在一個壓縮包內,供調取使用 public function test() {//引入壓縮包類$zip new \ZipArchive();//新定義一個zip包$zipname ROOT_PATH./public/zip/.date("YmdHis").rand(111,999)..zip;if ($zip->open($zipname, \ZipArchive::CREATE) true…

2023年跨界融合創新應用合作發展大會-核心PPT資料下載

一、峰會簡介 本次大會主題為“創新地理信息價值 服務數字中國建設”。1天主論壇和6場專題論壇的報告&#xff0c;圍繞主題深入探討地理信息產業與相關重要應用領域的跨界融合和深化合作。 本屆大會將搭建地理信息產業與旅游、林業、環保、氣象、住建、水利、農業農村、電力等…

數據報文去哪兒了

背景 今天遇到一個詭異的現象&#xff0c;當接口附加一個IP時&#xff0c;主IP業務正常&#xff0c;附加IP死活不行&#xff0c;tcpdump抓包確可以正常抓到到業務的報文&#xff0c;但是在PREROUTING raw添加規則確沒有命中&#xff0c;說明報文沒有到netfilter框架內&#xff…

RTL8762D SDK

0 Preface/Foreword SDK: Software Development kit 1、硬件介紹 1.1 General Description A624RO基本信息&#xff1a; ultra-low-powerBluetooth 5.1 low energy applicationsa leading RF transceiverlow-power ARM Cortex-M4FIR transceiver 1.1.1 MCU platform MCU…

openssl加解密-干貨分享

0.需要包含的頭文件和預定義常量 #include <openssl/rand.h>#include <fstream>#include <openssl/aes.h>#include <openssl/rand.h>// 加密密鑰和初始化向量&#xff08;IV&#xff09;長度#define AES_KEY_LENGTH 32#define AES_IV_LENGTH 16 1.密…