之前用nohup來遠程跑LLama factory微調腳本,是沒有問題的,但今天發現運行類似下面這個命令時,
nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml
只要一關閉ssh session,就會終止訓練,報類似:
nohup torch.distributed.elastic.multiprocessing.api.SignalException: Process 2504721 got signal: 1
的錯。解決方法其實也很簡單,參考了一下下面這些網頁:
nohup后臺運行命令,關閉shell后進程會終止_nohup 退出服務器后進程消失-CSDN博客
llamafactory大模型微調單卡轉多卡出現SignalException: Process 3232810 got signal: 1錯誤_torch.distributed.elastic.multiprocessing.api.sign-CSDN博客
針對我上面這個命令,解決方法是,首先輸入:
nohup llamafactory-cli train examples/train_qlora/qwen_lora.yaml &
然后回車,再在終端里輸入exit,然后再關閉ssh session即可。也有朋友說可以用tmux,但是我嫌麻煩就沒有嘗試:
nohup訓練pytorch模型時的報錯以及tmux的簡單使用 - gy77 - 博客園
就簡單總結這么多,主要是現在大模型微調太費事,如果跑了一半出現這種問題真的很讓人崩潰。?