讨论广场
全部
讨论
问答
发布
问答
如何评估私有化部署DeepSeek大模型的硬件要求
2025-02-21 15:23:05
私有化DeepSeek-V3和DeepSeek-R1满血版本,如何评估响应性能、并发和硬件配置之间的关系
真亦天 2025-02-28 16:42:27

问答
notebook运行代码报错no healthy upstream
2025-02-18 10:09:00
通过notebook,加载模型,之后运行,老是不稳定,时常页面报错:no healthy upstream
真亦天 2025-02-28 16:51:29

讨论
建议魔塔的创空间提供一个功能,隐藏用户的api_key信息
2025-02-14 14:41:20
用户在创空间提交gradio/streamlit应用的时候,有一种情况可能不是克隆modelscope的模型文件提供推理,而是直接用自己的api_key,调用modelscope上已有的推理接口,这样就不用申请gpu资源了。但是这样其他人在进入空间文件的时候是能够看到app.py中的明文api_key的。我觉得至少,可以提供一个方法,用户在自己的创空间中使用这个方法可以获取自己的modelscop
问答
小白求助,PAI-DSW可以扩容吗,100g不够啊。还有如何下载modelscope模型文件夹下的某一个模型。
2025-02-06 23:00:08
比如我只想下载HunyuanVideo_repackaged的llava_llama3_fp16.safetensors应该如何操作呢? modelscope download --model Comfy-Org/HunyuanVideo_repackaged llava_llama3_fp16.safetensors --local_dir /mnt/workspace/comfyui/mode
讨论
关于特殊标记在大模型微调中产生的影响的疑问
2024-11-20 16:43:13
求教 special token 在 LLM 训练中发挥的作用?以 Qwen2-VL 为例: 在 Qwen2-VL 的tokenizer.json文件中存在着诸如以下展示的 <|box_start|>、<|box_end|>为了下游任务中指定的 special token: ... { "id": 151648, "content":
问答
模型LoRa训练,遇到无法清空GPU显存的情况,导致二次加载模型失败,求助解决
2024-11-08 00:14:59
求助大神给个解决的思路! 我使用optuna库做超参数搜索,现在遇到一个问题 1、第一组超参数加载基础模型,训练验证过程一切正常 2、第一组超参数训练完成后,我使用下面的代码清理GPU显存,发现显存总有11G被占用,无法清理干净,导致第二组超参数加载基础模型的时候,显存不足或者部分模型被加载到cpu上了 3、没有办法关闭python或者干掉进程,不然第二组超参数就不能自动执行了 del model
讨论
5.11和5.6哪个大?
2024-08-02 19:10:36
几乎所有的大模型在这个简单问题上出错,所以大模型在高级抽象问题的解决还有限制。
但愿此生,从未邂逅 2024-08-06 14:06:32

讨论
如何看待 Meta AI 开源 4050 亿参数 Llama 3.1-405B 大模型?
2024-07-24 14:21:56
MetaAI开源Llama3.1系列模型,其中包括迄今为止最大规模的开源大语言模型Llama3.1-405B,参数规模达到了4050亿!其多项评测结果超过GPT-4、GPT-4o模型,与Claude3.5-Sonnet几乎有来有回!
查看更多