歡迎關注我的公眾號 [極智視界],獲取我的更多經驗分享
大家好,我是極智視界,本文來介紹一下 LLM大模型部署框架之OpenLLM。
邀您加入我的知識星球「極智視界」,星球內有超多好玩的項目實戰源碼下載,鏈接:https://t.zsxq.com/0aiNxERDq
由于 LLM 大模型在模型結構、模型規模等方面與傳統的 CNN 模型存在著很大的差別,所以 LLM 大模型的落地部署也會和之前 CNN 模型的部署存在較大方式上的不同。針對 LLM 大模型的部署,也新涌現了挺多專門應對這種變化的部署框架,這當然有別于之前 CNN 的部署推理框架。這個表現在什么地方呢?比如咱們拿之前熟悉的 TensorRT 去直接部署 LLM 大模型,你可能會覺得無從下手。這種無從下手可能會體現在比如 TensorRT 內置無法實現比 int8 更加低的推理精度了,而對于 LLM 大模型的部署,int4 可能會是更加常見的推理精度,這個時候就會感覺比較尷尬。還有個尷尬的地方是對于前端模型的把握,CNN 導 ONNX 是個很自然的事情,但對于 LLM 大模型來說,它們的結構往往存在一些邏輯分支,在導 ONNX 的時候容易出現問題,而且因為 LLM 大模型很大,所以這種問題并不太好定位。
之前看到有段話寫的我很是認同:
記得在 bert 時代,部署 pytorch 模型時可能會考