
WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型
近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发
00.导语
近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
论文链接:
https://arxiv.org/pdf/2503.05244
项目地址:
https://github.com/X-PLUG/WritingBench
01.WritingBench项目背景
现有AI写作评估多局限于单一领域和短文本,大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外,传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。
数据基建:最懂行业的写作题库
两级领域体系
WritingBench从现实需求中提炼出六大场景:
学术与工程 |
金融与商业 |
政治与司法 |
文学与艺术 |
教育 |
宣传营销 |
在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景。「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。
(图:WritingBench的6大领域分布)
四阶段人机协同构建
(图:评测集构建流程)
团队耗时三个月,经过四个阶段流程完成评测集构建。首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。接着,由人工补充开源素材,如财报、法律条文等输入料。最后,由专家对所有文本进行内容质检。下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。
(图:WritingBench写作查询示例)
与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。
(图:与相关写作评测基准对比)
因题施评:基于写作意图的动态评估体系
使用单一标准评估无法适应不同写作意图的需求,就像"悬疑小说"和"儿童启蒙故事"显然有着不同的价值导向。因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。此动态评估策略实现了87%的人类一致性得分,团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。
(图:动态评估指标示例)
02.如何使用WritingBench评估工具
「安装与下载」
🚀 Github仓库链接:
https://github.com/X-PLUG/WritingBench
在benchmark_query文件夹下提供了评测全集benchmark_all.jsonl和三维度子集,读入需要评测的jsonl文件后将结果保存至新的jsonl,每一条需要记录"index"和"response"字段。
「评测打分」
选项一:Critic Model打分
为打分模型配置本地路径和设置,并设置--evaluator critic。
Critic Model下载链接:
https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B
选项二:LLM API调用打分
在evaluator/llm.py中为LLM配置API,仓库中提供claude调用参考,即--evaluator claude。
「结果对比」
(图:不同模型在WringBench上表现对比)
教育领域(D5)在各个模型中的表现均较好,其次是学术和工程领域(D1)。文学与艺术(D5)是得分最低的领域,不同模型表现出显著的差异。具备链式思维(CoT)能力的模型如Deepseek-R1和o1-preview在处理叙述性和创意内容上表现优于其非CoT对照模型,表明CoT在处理此类内容时的潜力。
(图:不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差)
在100个子领域上进一步对比,发现小说续写、招投标书和白皮书等领域仍存在挑战,这些任务需要更高水平的知识、长文本生成能力和对上下文的一致性要求。
更多WritingBench上模型间对比实例可在在线体验链接中查看:https://modelscope.cn/studios/iic/DeepWriting
03.写作深度思考模型
12K通用写作的SFT数据上基于Qwen-2.5-32B-Instruct模型训练了一个写作深度思考模型。结果显示,其在创意型写作任务上具有显著优势,超越了同系列大尺寸的Qwen-Max,表现可媲美R1。
(图:32B创作模型思维链消融实验)
「如何使用」
模型链接:
https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking
下面提供一段vllm调用代码:
「写作示例」
示例一:小红书迪士尼攻略
示例二:火锅店评论
示例三:小说创作(武侠版的'魁地奇')
更多写作体验可前往:
https://modelscope.cn/studios/iic/DeepWriting
04.结语
随着生成式AI技术的迅猛发展,我们正站在文学与科技交汇的新时代入口。生成式写作的未来,或许不在于独自取代人类,而是在于与人类携手,建立创作共生协议,探索更为广阔的创意疆域。
🔗 项目开源:
📜 论文:
https://arxiv.org/abs/2503.05244
💻 仓库:
https://github.com/X-PLUG/WritingBench
✍️ ModelScope在线体验:
https://modelscope.cn/studios/iic/DeepWriting
🤖 模型:
└─ Critic: https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B
└─ Writer-7B: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-7B
└─ Writer-32B-thinking: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking
点击阅读原文,即可跳转体验~
更多推荐
所有评论(0)