随着共建“一带一路”进入高质量发展阶段,全球开发者对于多语言模型训练的需求不断增长,上海AI实验室联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库,为多语言大模型训练提供高质量数据支撑,助力全球开发者构建跨语言智能工具与应用。(点击了解:多语言语料库“万卷·丝路”发布,AI赋能共建“一带一路”)现面向全社会开放多语言课题合作及应用案例征集,并提供丰富、多维的资源支持,欢迎大家报名。

01. 多语言语料库研究合作

 

“万卷·丝路”多语言语料库发布以来,吸引众多开发者积极下载、使用。围绕该语料库的开源应用,上海人工智能实验室联合大模型语料数据联盟,对外开放专项课题合作,提供多元化的项目支持,寻找那些能够深化多语种语料库在关键领域的应用,如多语言模型微调与性能优化、跨语言企业出海智能工具研发等。

欢迎基础模型研发类企业、NLP算法/多语言算法研究员、多语种模型应用开发者、开发团队加入。

专题课题参考

围绕多语种语料库的建设、应用与发展趋势,聚焦语言教育、翻译实践、人工智能等多领域的应用需求,按照“创新驱动、应用导向”的原则,选取多语种语料库的构建、处理、分析、应用等“小切口”主题,广泛征集创新性研究成果。

研究方向参考:

1. 多语言模型微调与性能优化

2. 多语言智能助手应用开发

3. 跨语言企业出海智能工具研发

4. 多语言大模型评价与优化机制研究

5. 多语言语料库建设与开放

6. 多语言对话模型对齐评测基准构建

7. 多语言语料的自动标注与生成工具开发

8. 多语言智能教育系统的研究与开发

支持内容

基于上海人工智能实验室与大模型语料数据联盟在数据处理与体系化能力建设的积淀,“万卷·丝路”多语言语料库专项课题为入选团队提供多维度的支持:

● 顶级项目支持(科研经费、算力资源、数据工具、宣传等资源)

● 优秀成果应用转化

● 技术直播讲师邀约

● 大模型语料数据联盟卓越贡献者证书

 

参与对象

欢迎各类机构或个人参加,包括但不限于:

● 基础模型研发类企业

● NLP算法/多语言算法研究员

● 多语种模型应用开发者

● AI 应用开发团队

征集时间

专项课题申请截止日期为2025年6月20日。

(更多细则,可点击文末阅读原文查看)

主办单位

上海人工智能实验室、大模型语料数据联盟、北京外研在线数字科技有限公司

报名方式

如果你正在开展“万卷·丝路”多语言语料库的相关应用研究,或是渴望加入多语种语料算法优化、模型开发专属社群,与全球开发者共同开展技术交流,欢迎扫码填报“万卷·丝路”使用情况,与我们一起,以人工智能推动跨文化交流与业务拓展。

👇

更多交流请添加小助手微信

获取更多高质量、大规模、安全可信的数据集

沟通更多关于数据集的合作事项

👇

 

02.“万卷·丝路”多语言预训练语料库介绍

“万卷·丝路”是国内规模最大、领域覆盖最全面的高质量多语言预训练语料库,数据总规模超1.2TB,Token总数超过300B,处于国际领先水平。首期开源的语料库包含泰语、俄语、阿拉伯语、韩语和越南语5个子集,每个子集均突破150GB数据规模,通过创新的七维分类体系(历史沿革、商贸经济、专业知识库、文化传承、新闻时政等)和32个垂直领域标签,系统构建起兼具语言特征与文化特质的数据集。开发者可根据具体需求检索数据,满足从基础研究到产业应用的多样化需求。

 

经严格评测验证,"万卷·丝路"展现出显著的模型赋能效应:基于7B参数基础模型训练,实现综合性能跃升52.3%;在700亿参数的大模型训练中,仍保持12.8%的性能增益。值得注意的是,依托”万卷·丝路”,使轻量化模型在多语言处理领域展现出超越大模型的卓越表现。

数据集下载

“万卷·丝路”已发布至大模型语料数据联盟开源数据服务指定平台OpenDataLab及各大开发者社区,全球开发者均可通过以下开源链接下载:

OpenDataLab:

https://opendatalab.com/applyMultilingualCorpus

ModelScope:

https://www.modelscope.cn/datasets?Tags=text-classification&dataType=text&organization=OpenDataLab&page=1

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐