利用docker一鍵部署LLaMa到自己的Linux服務器,有無GPU都行、可以指定GPU數量、支持界面對話和API調用,離線本地化部署包含模型權重合并。兩種方式實現支持界面對話和API調用,一是通過搭建text-generation-webui。二是通過llamma.cpp轉換模型為轉換為 GGUF 格式,使用 quantize 量化模型,使用 llama.cpp 運行 GGUF 模型。
斯坦福大學的Alpaca-lora模型的本地化部署,并驗證了實際的推理效果,總體感覺并不是特別理想,原始Alpaca-lora模型對中文支持并不好,用52k的中文指令集對模型進行fine-tuning之后,效果依然達不到網上說的媲美GPT-3.5的推理效果,驗證了那句話:“事不目見耳聞,而臆斷其有無,可乎?”。在具有3塊Tesla P40顯卡的服務器上,利用3塊GPU顯卡加載模型參數和計算,進行一次簡單的推理(非數學運算和邏輯運算)也需要大概30s-1min的時間,效率簡直慢的驚人,雖然用中文數據集對模型進行了fine-tuning,然而對中文的支持也并不是很好,經常會出現亂碼、重復問題、詞不達意等情況。
當時大模型也同雨后春筍般的層出不窮,各個大廠和科研機構都推出了自己的大模型,其中基于LLaMA(開源且好用)的最多,所以決定再看看其他模型,有沒有推理效果好,中文支持好,同時推理效率高的模型。經過篩選,Vicuna-13B的推理效果據說達到了ChatGPT的90%以上的能力?