mllm, qnn, x64
code:https://github.com/UbiquitousLearning/mllm
1. 問題
通過自定義qualcomm graph使用高通的htp后端進行llm推理,網絡暫時只有mllm
,和https://github.com/chraac/llama.cpp
。qualcomm是支持x64模擬htp推理的,這樣比較好debug,方便調試。但是mllm中是不支持的。因為他htp后端強制使用了libcdsprpc.so
來申請內存,就是高通說的shared mem。但是這部分的問題是可以修復的,需要自己或作者出點工作量。后續的人有同樣問題的可參考。
2. other
繼續diss一下qualcomm不支持單op的算力調用。diss