利用docker一鍵部署LLaMa到自己的Linux服務器，有無GPU都行、可以指定GPU數量、支持界面對話和API調用，離線本地化部署包含模型權重合并

利用docker一鍵部署LLaMa到自己的Linux服務器，有無GPU都行、可以指定GPU數量、支持界面對話和API調用，離線本地化部署包含模型權重合并。兩種方式實現支持界面對話和API調用，一是通過搭建text-generation-webui。二是通過llamma.cpp轉換模型為轉換為 GGUF 格式，使用 quantize 量化模型，使用 llama.cpp 運行 GGUF 模型。

在這里插入圖片描述

斯坦福大學的Alpaca-lora模型的本地化部署，并驗證了實際的推理效果，總體感覺并不是特別理想，原始Alpaca-lora模型對中文支持并不好，用52k的中文指令集對模型進行fine-tuning之后，效果依然達不到網上說的媲美GPT-3.5的推理效果，驗證了那句話：“事不目見耳聞，而臆斷其有無，可乎？”。在具有3塊Tesla P40顯卡的服務器上，利用3塊GPU顯卡加載模型參數和計算，進行一次簡單的推理（非數學運算和邏輯運算）也需要大概30s-1min的時間，效率簡直慢的驚人，雖然用中文數據集對模型進行了fine-tuning，然而對中文的支持也并不是很好，經常會出現亂碼、重復問題、詞不達意等情況。

當時大模型也同雨后春筍般的層出不窮，各個大廠和科研機構都推出了自己的大模型，其中基于LLaMA（開源且好用）的最多，所以決定再看看其他模型，有沒有推理效果好，中文支持好，同時推理效率高的模型。經過篩選，Vicuna-13B的推理效果據說達到了ChatGPT的90%以上的能力?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/696977.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/696977.shtml
英文地址，請注明出處：http://en.pswp.cn/news/696977.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！