LLM大模型的7種推理框架分析

 

LLM的7種推理框架

   

Hugging Face的transformers

這是一個Python庫，可以簡化本地運行LLM的過程。

Transformers的優點：

自動模型下載
提供代碼片段
非常適合實驗和學習

Transformers的缺點：

需要對ML和NLP有深入了解
需要編碼和配置技能

2.Llama.cpp：

Llama.cpp，C++推理引擎翹楚，專為Apple Silicon量身打造，高效運行Llama2模型。GPU與CPU雙優化，為您的推理任務提供卓越性能，引領業界潮流。

優勢顯著：超越Python性能，支持在普通硬件上運行如Llama 7B等大型模型，提供多語言綁定構建AI應用，并憑借Llama.cpp高效執行推理，為您的AI項目提供強大支持。

缺點：模型支持有限，需要構建工具。

Llama.cpp是您的理想選擇，無論是本地硬件運行大型模型，還是跨語言構建AI應用，其高效性與兼容性均能滿足您的需求。

3.Llamafile：

Llamafile，Mozilla匠心之作，基于C++與llama.cpp庫，專為自托管大型語言模型（LLMs）打造。它簡化了LLM模型的創建、加載與運行，無需擔憂底層環境的繁瑣。其簡潔的API接口，讓開發人員與LLM的交互更為便捷，輕松實現各類復雜應用場景，引領智能編程新紀元。

Llamafile助力您輕松創建嵌入模型的單一可執行文件，打造便攜工具的不二之選，滿足您的多樣化需求。

4.Ollama：

Ollama，作為Llama.cpp和Llamafile的升級之選，以其用戶友好的特性脫穎而出。簡易下載可執行文件后，即可在您的機器上安裝服務，輕松打開終端并運行，輕松高效。

優點：易于安裝和使用，可以運行llama和vicu?a模型，運行速度非常快。

缺點：模型庫有限，需自行管理模型，不支持模型重用，無法定制LLM運行選項，且暫不支持Windows系統。

輕松應對llama與vicu?a模型運行，追求簡易安裝與高效使用的您，Ollama工具將是您的首選之選。

目前微軟Phi-3以上四種本地運行模式都支持。詳見：

Phi-3量化模型：SLM系列2

5：vLLM

vLLM，一款高效推理與服務引擎，專為大型語言模型打造，提供高吞吐量、內存優化服務，輕松實現便捷、快速、經濟的LLM體驗。

優點

高效的服務吞吐量：vLLM可以快速處理大量的并發請求。
支持模型種類多。
vLLM通過創新的PagedAttention技術，顯著提升了內存效率，高效管理注意力鍵和值，助力強大性能。

缺點

你需要確保你的設備有GPU，CUDA或者RoCm.

vLLM會提供對Phi-3的支持，目前代碼在集成中。

對Phi-2的支持的驗證詳見：

語言模型小型化嘗試-PyTorch學習系列36

6.TGI（Text Generation Inference）

TGI，由HuggingFace傾力打造的文本生成推理部署框架，兼容主流大模型及其量化方案。結合Rust與Python，TGI巧妙平衡服務效率與業務靈活性，并實現了豐富特性，助力您輕松部署和優化大模型推理任務。

簡單的啟動LLM
優化后的transformers代碼，利用Flash Attention與Paged Attention技術，顯著提升推理性能，打造高效、精準的智能應用。
運用bitsandbytes的GPT-Q、EETQ、AWQ與Safetensors技術，實現高效量化，提升性能與效率。

TGI與Transformer推理方式有所不同，差異體現在多個關鍵方面，包括但不限于處理文本生成與推斷的獨特方法。

TGI與Transformer均支持并行計算，但TGI更勝一籌。它巧妙結合Rust與Python，實現服務效率與業務靈活性的完美平衡。在處理龐大語言模型時，TGI能高效利用計算資源，顯著提升推理速度，為您帶來前所未有的高效體驗。
TGI引入革新優化技巧，包括continuous batching、Flash Attention和Paged Attention，顯著提升推理效率和性能，較傳統Transformer模型更具優勢。這些技巧讓您在數據處理上更勝一籌，輕松實現高效能計算。
TGI支持GPTQ模型服務部署，實現單卡上連續批處理的大模型運行，優于傳統Transformer模型，確保高效能與廣泛適用性，為大型模型應用提供強大支持。

TGI在某些方面超越傳統Transformer推理，但并非萬能。面對與TGI優化策略不匹配的任務或數據時，傳統Transformer推理或更為適用。經測試，TGI在推理速度上尚不及vLLM。因此，在選擇推理方法時，需根據實際需求靈活權衡，確保最優解的選擇。

TGI推理支持容器方式運行：

7.Deepspeed

DeepSpeed，微軟開源的深度學習優化庫，支持本地推理。它通過系統優化和壓縮技術，深度優化硬件、操作系統和框架，運用模型與數據壓縮，顯著提升大規模模型的推理與訓練效率。

DeepSpeed-Inference，作為DeepSpeed框架的推理擴展，專為大型語言模型打造。憑借模型、張量及流水線并行技術，顯著提升推理性能，大幅縮短延遲，讓語言處理更迅速高效。

詳細內容參見：

DeepSpeed-Chat微調模型：deepspeed訓練系列-1

推理框架的選擇（選擇之前先確認要使用的模型是否支持這種推理框架）：

DeepSpeed：卓越選擇，專為高性能推理任務定制。其獨特的ZeRO優化器、3D并行（數據、模型與流水線并行）以及1比特Adam等技術，大幅增強大模型訓練與推理效率。若您追求極致性能，DeepSpeed不容錯過。

ollama，簡便易用的工具之選。其顯著優勢在于易用性，用戶僅需通過簡易命令行界面，即可輕松運行模型，讓操作更加流暢高效。

Llamafile，卓越之選，打造嵌入模型的獨立可執行文件。它以卓越的便攜性和單文件生成能力聞名，輕松滿足您一體化部署需求。

TGI（文本生成推理）是多種硬件環境下高效推理的優選。它集成模型并行、張量并行和流水線并行等優化技術，為大型模型推理帶來顯著效率提升。無論您的任務需求如何，TGI都能助您一臂之力。

Transformer模型，處理自然語言處理任務的理想之選。對于機器翻譯、文本生成等復雜任務，其強大的表示能力可精準捕獲文本長距離依賴關系。選擇Transformer，解鎖自然語言處理的無限可能。

vLLM，專為處理海量自然語言任務而生，如文本分類與情感分析。作為大規模預訓練模型，vLLM在各種NLP任務中均展現卓越性能，是您處理大規模數據的不二之選。

 

-對此，您有什么看法見解？-

-歡迎在評論區留言探討和分享。-

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/15063.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/15063.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/15063.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！