讨论广场
全部
讨论
问答
发布
讨论
关于特殊标记在大模型微调中产生的影响的疑问
2024-11-20 16:43:13
求教 special token 在 LLM 训练中发挥的作用?以 Qwen2-VL 为例: 在 Qwen2-VL 的tokenizer.json文件中存在着诸如以下展示的 <|box_start|>、<|box_end|>为了下游任务中指定的 special token: ... { "id": 151648, "content":
问答
模型LoRa训练,遇到无法清空GPU显存的情况,导致二次加载模型失败,求助解决
2024-11-08 00:14:59
求助大神给个解决的思路! 我使用optuna库做超参数搜索,现在遇到一个问题 1、第一组超参数加载基础模型,训练验证过程一切正常 2、第一组超参数训练完成后,我使用下面的代码清理GPU显存,发现显存总有11G被占用,无法清理干净,导致第二组超参数加载基础模型的时候,显存不足或者部分模型被加载到cpu上了 3、没有办法关闭python或者干掉进程,不然第二组超参数就不能自动执行了 del model
讨论
5.11和5.6哪个大?
2024-08-02 19:10:36
几乎所有的大模型在这个简单问题上出错,所以大模型在高级抽象问题的解决还有限制。
但愿此生,从未邂逅 2024-08-06 14:06:32
讨论
如何看待 Meta AI 开源 4050 亿参数 Llama 3.1-405B 大模型?
2024-07-24 14:21:56
MetaAI开源Llama3.1系列模型,其中包括迄今为止最大规模的开源大语言模型Llama3.1-405B,参数规模达到了4050亿!其多项评测结果超过GPT-4、GPT-4o模型,与Claude3.5-Sonnet几乎有来有回!
讨论
Meta Llama 3.1-405B AI 模型多项跑分超越 GPT-4o,如何评价该款模型?
2024-07-24 14:20:41
IT之家 7 月 23 日消息,网友在 LocalLLaMA 子 Reddit 板块中发帖,分享了 4050 亿参数的 Meta Llama 3.1 信息,从该 AI 模型在几个关键 AI 基准测试的结果来看,其性能超越目前的领先者(OpenAI 的 GPT-4o)。 这是开源人工智能社区的一个重要里程碑,标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。 如基准测试所示,Meta Lla
查看更多