魔搭社区每周速递（12.08-12.14）

魔搭ModelScope本期社区进展：新增1599个模型，46个数据集，67个创新应用，8篇内容

魔搭ModelScope社区

200人浏览 · 2024-12-16 12:05:16

魔搭ModelScope社区 · 2024-12-16 12:05:16 发布

🙋魔搭ModelScope本期社区进展：

📟1599个模型：Llama 3.3、deepseek-vl2、DeepSeek-V2.5-1210、Ivy-VL、Tora_T2V_diffusers、InternViT-6B-448px-V2_5等；

📁46个数据集：P-MMEval、一招金融数据集、BiomedParseData、subsplease_animes等；

🎨67个创新应用：Llama-3.3-70B-Instruct、ShowUI、通用交互式图像编辑和生成等；

📄 8篇内容：

AI Safeguard联合 CMU，斯坦福提出端侧多模态小模型
CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！
TeleAI 星辰语义大模型全尺寸开源，function call能力突出
基于可图Kolors的皮影戏风格LoRA训练&创作
千问开源P-MMEval数据集，面向大模型的多语言平行评测集
Llama 3.3开源！70B媲美405B性能，支持128K上下文
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
InternVL 2.5，首个MMMU超过70%的开源模型，性能媲美GPT-4o

01.精选模型

Llama 3.3

Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出），指令调优的纯文本模型针对多语言对话用例进行了优化，调优版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来与人类对有用性和安全性的偏好保持一致。

训练数据：新的公开在线数据混合集
参数量：70B
输入模态：多语言文本
输出模态：多语言文本和代码
上下文长度：128K
GQA：是
训练tokens：15T+（仅指预训练数据）
知识截止日期：2023年12月
支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

模型链接：

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct

代码示例：

transformers推理

import transformers
import torch
from modelscope import snapshot_download

model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

更多详情请见：

Llama 3.3开源！70B媲美405B性能，支持128K上下文

DeepSeek-VL2

DeepSeek-VL2 是DeepSeek最新推出的MoE 视觉-语言模型，它在性能上显著超越了其前身DeepSeek-VL。DeepSeek-VL2在各种任务中展现出卓越的能力，包括但不限于视觉问题回答、OCR、文档/表格/图表理解以及视觉定位。DeepSeek-VL2 系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别激活了10亿、28亿和45亿参数。与现有的开源密集型和基于MoE的模型相比，DeepSeek-VL2在激活参数相似或更少的情况下，实现了具有竞争力或最先进的性能。

模型链接：

https://modelscope.cn/models/deepseek-ai/deepseek-vl2

代码推理：

# pip install git+https://github.com/deepseek-ai/DeepSeek-VL2.git
# pip install "transformers<4.42"

import torch
from modelscope import AutoModelForCausalLM, snapshot_download

from deepseek_vl.models import DeepseekVLV2Processor, DeepseekVLV2ForCausalLM
from deepseek_vl.utils.io import load_pil_images


# specify the path to the model
model_path = snapshot_download("deepseek-ai/deepseek-vl2-small")
vl_chat_processor: DeepseekVLV2Processor = DeepseekVLV2Processor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: DeepseekVLV2ForCausalLM = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

## single image conversation example
conversation = [
    {
        "role": "<|User|>",
        "content": "<image>\n<|ref|>The giraffe at the back.<|/ref|>.",
        "images": ["./images/visual_grounding.jpeg"],
    },
    {"role": "<|Assistant|>", "content": ""},
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation,
    images=pil_images,
    force_batchify=True,
    system_prompt=""
).to(vl_gpt.device)

# run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# run the model to get the response
outputs = vl_gpt.language.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

Ivy-VL

Ivy-VL 是由 AI Safeguard 联合CMU与斯坦福开发的⼀款轻量级多模态模型，秉承⾼效、轻量化和强性能的设计理念，聚焦于多模态⼤模型在端侧部署的需求。

Ivy-VL 的参数量仅为 3B，极⼤地降低了计算资源需求，在端侧设备上可实现实时推理。Ivy-VL在多个多模态榜单中夺得 SOTA成绩，在专业多模态模型评测榜单OpenCompass上面，做到了 4B 以下开源模型第⼀的性能。

模型链接：

https://modelscope.cn/models/AI-Safeguard/Ivy-VL-llava

Tora_T2V_diffusers

Tora是由阿里云技术团队推出的首个面向轨迹的扩散变换器框架，通过集成文本、视觉和轨迹条件，展现了在生成高质量、可控运动视频内容方面的突破性进展，其设计允许精确控制视频内容的动态，实验结果证明了其在高运动保真度和物理世界运动模拟方面的卓越性能。

模型链接：https://modelscope.cn/models/Alibaba_Research_Intelligence_Computing/Tora_T2V_diffusers

02.数据集推荐

P-MMEval

多语言基准 P-MMEval，涵盖有效的基础数据集和能力专业化数据集。我们扩展了现有的基准，确保所有数据集的语言覆盖范围一致，并在多种语言之间提供并行样本，支持来自 8 个语系（即 en、zh、ar、es、ja、ko、th、fr、pt、vi）的多达 10 种语言。因此，P-MMEval 有助于对多语言能力进行整体评估并对跨语言可迁移性进行比较分析。

数据集链接：

https://modelscope.cn/datasets/Qwen/P-MMEval

一招金融数据集

一招数据集由哈尔滨工业大学&招商银行联合推出，是一个2TB高质量多模态的大模型训练数据集（包含936GB中文文本数据集，100GB英文文本数据集和1TB的高质量多模态数据集）。该数据集不仅包含广泛的金融事件、市场动态，还涵盖各种金融产品和交易模式，以确保模型在复杂的金融环境中展现出卓越的泛化能力和预测准确性。

数据集链接：

https://modelscope.cn/datasets/CMB_AILab/YiZhao-FinDataSet