1.?模型準備與轉換(PC端/服務器)
- 你先在PC上下載或訓練好大語言模型(如HuggingFace格式)。
- 用RKLLM-Toolkit把模型轉換成瑞芯微NPU能用的專用格式(.rkllm),并可選擇量化優化。
- 把轉換好的模型文件拷貝到開發板(如RK3588)上。
2.?板端部署與啟動
- 在開發板上,分別啟動三個主要服務/模塊:
- ASR(語音識別)服務:實時采集麥克風音頻,把語音轉成文字。
- LLM(大模型)服務:接收ASR識別的文字,理解并生成智能回復。
- TTS(語音合成)服務:把LLM生成的文字回復轉成語音,最后通過揚聲器播放。
3.?模塊間通信
- 各模塊之間通過ZeroMQ(消息隊列)進行通信,互相傳遞數據,流程如下:
- ASR識別出文字后,發給LLM模塊。
- LLM模塊生成回復后,發給TTS模塊。
- TTS模塊合成語音后,通知ASR模塊可以繼續采集。
4.?用戶交互閉環
- 用戶說一句話,ASR模塊識別成文字。
- LLM模塊理解這句話,生成智能回復。
- TTS模塊把回復變成語音,揚聲器播放出來。
- 用戶聽到回復,可以繼續說下一句話,流程循環往復。
三、舉個例子
- 你說:“今天天氣怎么樣?”
- ASR模塊識別成文字:“今天天氣怎么樣?”
- LLM模塊收到后,生成回復:“今天天氣晴,氣溫25度。”
- TTS模塊把這句話合成語音,揚聲器播放出來:“今天天氣晴,氣溫25度。”
- 你聽到后,可以繼續提問,系統繼續響應。