背景
A6000顯卡的溫度一直都是86度左右,GPU的風扇轉速不夠大。
我首先把 nvidia的驅動更新了,但是發現風扇依然依然保持在較低的轉速。
后面無意間搜到了CoolerControl 這個linux平臺的風扇控制軟件。設置之后,增加了風扇的轉速,現在可以把GPU的溫度控制在80度以下。
具體操作
參考教程:https://cn.linux-terminal.com/?p=8335
支持風扇固定轉速與按照曲線設置轉速。
下述圖片是按照這個曲線控制風扇的轉速,達到不同的溫度,風扇保持不同的轉速。不僅可以控制CPU的風扇還可以控制GPU的風扇。
CoolerControl 視頻教程:https://www.bilibili.com/video/BV1oF9yYFEvc/
我發現B站和youtube關于CoolerControl軟件的教程,其中主要也就是設置下面的曲線。
題外話
A6000顯卡溫度在85度以上,我早就注意到了,不想折騰,一直都懶得管。我發現在訓練模型的時候,windows把GPU的溫度壓的比較好,一直都70度以下。Windows訓練大模型不方便,還是得使用 linux 訓練大模型。
我很多次使用 llamafactory 微調大模型的時候,模型訓練一半linux系統就崩潰了,必須得按關機鍵重啟。
首先,我便懷疑是不是顯卡溫度過高觸發了硬件的保護機制,導致系統崩潰。后面我發現把GPU的溫度壓下來后,訓練大模型依然會崩潰。
因為nvidia的驅動已經更新過了,不是驅動的問題。于是我把python環境從3.11升級到3.12,再把 llamafactory 的包重新安裝了一遍,在裝包的過程中,我發現安裝了很多與nvidia相關的包。然后再訓練大模型就不崩潰了。