ModelScope魔搭社区

模型LoRa训练，遇到无法清空GPU显存的情况，导致二次加载模型失败，求助解决

einstein33 2024-11-08 00:14:59

1908

求助大神给个解决的思路！

我使用optuna库做超参数搜索，现在遇到一个问题

1、第一组超参数加载基础模型，训练验证过程一切正常

2、第一组超参数训练完成后，我使用下面的代码清理GPU显存，发现显存总有11G被占用，无法清理干净，导致第二组超参数加载基础模型的时候，显存不足或者部分模型被加载到cpu上了

3、没有办法关闭python或者干掉进程，不然第二组超参数就不能自动执行了

del model

del tokenizer

gc.collect()

torch.cuda.empty_cache()

torch.cuda.synchronize()

time.sleep(30)

1908

全部评论(1)

12 楼

2025-04-21 17:34:43