模型LoRa训练,遇到无法清空GPU显存的情况,导致二次加载模型失败,求助解决
einstein33 2024-11-08 00:14:59
求助大神给个解决的思路!
我使用optuna库做超参数搜索,现在遇到一个问题
1、第一组超参数加载基础模型,训练验证过程一切正常
2、第一组超参数训练完成后,我使用下面的代码清理GPU显存,发现显存总有11G被占用,无法清理干净,导致第二组超参数加载基础模型的时候,显存不足或者部分模型被加载到cpu上了
3、没有办法关闭python或者干掉进程,不然第二组超参数就不能自动执行了
del model
del tokenizer
gc.collect()
torch.cuda.empty_cache()
torch.cuda.synchronize()
time.sleep(30)