讨论广场 问答详情
模型LoRa训练,遇到无法清空GPU显存的情况,导致二次加载模型失败,求助解决
einstein33 2024-11-08 00:14:59
406 评论 分享

求助大神给个解决的思路!

我使用optuna库做超参数搜索,现在遇到一个问题

1、第一组超参数加载基础模型,训练验证过程一切正常

2、第一组超参数训练完成后,我使用下面的代码清理GPU显存,发现显存总有11G被占用,无法清理干净,导致第二组超参数加载基础模型的时候,显存不足或者部分模型被加载到cpu上了

3、没有办法关闭python或者干掉进程,不然第二组超参数就不能自动执行了

del model

del tokenizer

gc.collect()

torch.cuda.empty_cache()

torch.cuda.synchronize()

time.sleep(30)

 

406 评论 分享
写回答
全部评论(0)