LLM的7種推理框架
- Hugging Face的transformers
這是一個Python庫,可以簡化本地運行LLM的過程。
Transformers的優點:
- 自動模型下載
- 提供代碼片段
- 非常適合實驗和學習
Transformers的缺點:
- 需要對ML和NLP有深入了解
- 需要編碼和配置技能
2.Llama.cpp:
Llama.cpp,C++推理引擎翹楚,專為Apple Silicon量身打造,高效運行Llama2模型。GPU與CPU雙優化,為您的推理任務提供卓越性能,引領業界潮流。
優勢顯著:超越Python性能,支持在普通硬件上運行如Llama 7B等大型模型,提供多語言綁定構建AI應用,并憑借Llama.cpp高效執行推理,為您的AI項目提供強大支持。
缺點:模型支持有限,需要構建工具。
Llama.cpp是您的理想選擇,無論是本地硬件運行大型模型,還是跨語言構建AI應用,其高效性與兼容性均能滿足您的需求。
3.Llamafile:
Llamafile,Mozilla匠心之作,基于C++與llama.cpp庫,專為自托管大型語言模型(LLMs)打造。它簡化了LLM模型的創建、加載與運行,無需擔憂底層環境的繁瑣。其簡潔的API接口,讓開發人員與LLM的交互更為便捷,輕松實現各類復雜應用場景,引領智能編程新紀元。
Llamafile助力您輕松創建嵌入模型的單一可執行文件,打造便攜工具的不二之選,滿足您的多樣化需求。
4.Ollama:
Ollama,作為Llama.cpp和Llamafile的升級之選,以其用戶友好的特性脫穎而出。簡易下載可執行文件后,即可在您的機器上安裝服務,輕松打開終端并運行,輕松高效。
優點:易于安裝和使用,可以運行llama和vicu?a模型,運行速度非常快。
缺點:模型庫有限,需自行管理模型,不支持模型重用,無法定制LLM運行選項,且暫不支持Windows系統。
輕松應對llama與vicu?a模型運行,追求簡易安裝與高效使用的您,Ollama工具將是您的首選之選。
目前微軟Phi-3以上四種本地運行模式都支持。詳見:
Phi-3量化模型:SLM系列2
5:vLLM
vLLM,一款高效推理與服務引擎,專為大型語言模型打造,提供高吞吐量、內存優化服務,輕松實現便捷、快速、經濟的LLM體驗。
優點
- 高效的服務吞吐量:vLLM可以快速處理大量的并發請求。
- 支持模型種類多。
- vLLM通過創新的PagedAttention技術,顯著提升了內存效率,高效管理注意力鍵和值,助力強大性能。
缺點
- 你需要確保你的設備有GPU,CUDA或者RoCm.
vLLM會提供對Phi-3的支持,目前代碼在集成中。
對Phi-2的支持的驗證詳見:
語言模型小型化嘗試-PyTorch學習系列36
6.TGI(Text Generation Inference)
TGI,由HuggingFace傾力打造的文本生成推理部署框架,兼容主流大模型及其量化方案。結合Rust與Python,TGI巧妙平衡服務效率與業務靈活性,并實現了豐富特性,助力您輕松部署和優化大模型推理任務。
- 簡單的啟動LLM
- 優化后的transformers代碼,利用Flash Attention與Paged Attention技術,顯著提升推理性能,打造高效、精準的智能應用。
- 運用bitsandbytes的GPT-Q、EETQ、AWQ與Safetensors技術,實現高效量化,提升性能與效率。
TGI與Transformer推理方式有所不同,差異體現在多個關鍵方面,包括但不限于處理文本生成與推斷的獨特方法。
- TGI與Transformer均支持并行計算,但TGI更勝一籌。它巧妙結合Rust與Python,實現服務效率與業務靈活性的完美平衡。在處理龐大語言模型時,TGI能高效利用計算資源,顯著提升推理速度,為您帶來前所未有的高效體驗。
- TGI引入革新優化技巧,包括continuous batching、Flash Attention和Paged Attention,顯著提升推理效率和性能,較傳統Transformer模型更具優勢。這些技巧讓您在數據處理上更勝一籌,輕松實現高效能計算。
- TGI支持GPTQ模型服務部署,實現單卡上連續批處理的大模型運行,優于傳統Transformer模型,確保高效能與廣泛適用性,為大型模型應用提供強大支持。
TGI在某些方面超越傳統Transformer推理,但并非萬能。面對與TGI優化策略不匹配的任務或數據時,傳統Transformer推理或更為適用。經測試,TGI在推理速度上尚不及vLLM。因此,在選擇推理方法時,需根據實際需求靈活權衡,確保最優解的選擇。
TGI推理支持容器方式運行:
7.Deepspeed
DeepSpeed,微軟開源的深度學習優化庫,支持本地推理。它通過系統優化和壓縮技術,深度優化硬件、操作系統和框架,運用模型與數據壓縮,顯著提升大規模模型的推理與訓練效率。
DeepSpeed-Inference,作為DeepSpeed框架的推理擴展,專為大型語言模型打造。憑借模型、張量及流水線并行技術,顯著提升推理性能,大幅縮短延遲,讓語言處理更迅速高效。
詳細內容參見:
DeepSpeed-Chat微調模型:deepspeed訓練系列-1
推理框架的選擇(選擇之前先確認要使用的模型是否支持這種推理框架):
DeepSpeed:卓越選擇,專為高性能推理任務定制。其獨特的ZeRO優化器、3D并行(數據、模型與流水線并行)以及1比特Adam等技術,大幅增強大模型訓練與推理效率。若您追求極致性能,DeepSpeed不容錯過。
ollama,簡便易用的工具之選。其顯著優勢在于易用性,用戶僅需通過簡易命令行界面,即可輕松運行模型,讓操作更加流暢高效。
Llamafile,卓越之選,打造嵌入模型的獨立可執行文件。它以卓越的便攜性和單文件生成能力聞名,輕松滿足您一體化部署需求。
TGI(文本生成推理)是多種硬件環境下高效推理的優選。它集成模型并行、張量并行和流水線并行等優化技術,為大型模型推理帶來顯著效率提升。無論您的任務需求如何,TGI都能助您一臂之力。
Transformer模型,處理自然語言處理任務的理想之選。對于機器翻譯、文本生成等復雜任務,其強大的表示能力可精準捕獲文本長距離依賴關系。選擇Transformer,解鎖自然語言處理的無限可能。
vLLM,專為處理海量自然語言任務而生,如文本分類與情感分析。作為大規模預訓練模型,vLLM在各種NLP任務中均展現卓越性能,是您處理大規模數據的不二之選。
-對此,您有什么看法見解?-
-歡迎在評論區留言探討和分享。-