Hugging face Transformers（1）—

Hugging face Transformers（1）—— 基礎知識

Hugging Face 是一家在 NLP 和 AI 領域具有重要影響力的科技公司，他們的開源工具和社區建設為NLP研究和開發提供了強大的支持。它們擁有當前最活躍、最受關注、影響力最大的 NLP 社區，最新最強的 NLP 模型大多在這里發布和開源。該社區也提供了豐富的教程、文檔和示例代碼，幫助用戶快速上手并深入理解各類 Transformer 模型和 NLP 技術
Transformers 庫是 Hugging Face 最著名的貢獻之一，它最初是 Transformer 模型的 pytorch 復現庫，隨著不斷建設，至今已經成為 NLP 領域最重要，影響最大的基礎設施之一。該庫提供了大量預訓練的模型，涵蓋了多種語言和任務，成為當今大模型工程實現的主流標準，換句話說，如果你正在開發一個大模型，那么按 Transformer 庫的代碼格式進行工程實現、將 check point 打包成 hugging face 格式開源到社區，對于推廣你的工作有很大的助力作用。本系列文章將介紹 Transformers 庫的基本使用方法

1. 常見自然語言處理任務

目前常見的 NLP 任務主要可以歸納為

第一階段（傳統機器學習思路）：統計模型＋數據（特征工程)
- 特征提取：TF-IDF、BOW…
- 使用經典統計模型：決策樹、SVM、HMM、CRF…
第二階段（深度學習思路）：神經網絡＋數據
- 特征提取：Word2vec、Glove…
- 使用深度學習模型：MLP、CNN、RNN/LSTM/GRU、Transformer…
第三階段（預訓練微調思路）：預訓練＋(少量)數據微調思路
- 特征提取：BERT 類 Transformer Encoder 模型（同時有很多工作直接端到端）
- 使用 Transformer 類序列模型：GPT、BERT/RoBERTa/ALBERT、BART/T5
第四階段（大模型思路）：神經網絡＋更大的預訓練模型＋Prompt
- 基本沒有明確的特征提取階段，或者說用 GPT 提取前驅序列特征
- 基于 GPT 的各種序列生成模型：ChatGPT、Bloom、LLaMA、Alpaca、Vicuna、MOSS…

Transformers 庫包含以下核心組件

組件	描述
Transformers	核心庫，模型加載、模型訓練、流水線等
Tokenizer	分詞器，對數據進行預處理，文本到 token 序列的互相轉換
Datasets	數據集庫，提供了數據集的加載、處理等方法
Evaluate	評估函數，提供各種評價指標的計算函數
PEFT	高效微調模型的庫，提供了幾種高效微調的方法，小參數量撬動大模型
Accelerate	分布式訓練，提供了分布式訓練解決方案，包括大模型的加載與推理解決方案
Optimum	優化加速庫，支持多種后端，如Onnxruntime、OpenVino等
Gradio	可視化部署庫，幾行代碼快速實現基于Web交互的算法演示系統

部分官方文檔

章節	描述
文檔	完整的 API 文檔和教程
任務總結	🤗 Transformers 支持的任務
預處理教程	使用 `Tokenizer` 來為模型準備數據
訓練和微調	在 PyTorch/TensorFlow 的訓練循環或 `Trainer` API 中使用 🤗 Transformers 提供的模型
快速上手：微調和用例腳本	為各種任務提供的用例腳本
模型分享和上傳	和社區上傳和分享你微調的模型
遷移	從 `pytorch-transformers` 或 `pytorch-pretrained-bert` 遷移到 🤗 Transformers

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/41871.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/41871.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/41871.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！