01.前言

 

近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。

 

魔搭社区MCP链接:https://www.modelscope.cn/mcp/servers/@allvoicelab/AllVoiceLab

 

趣丸千音(All Voice Lab)是全球领先的AI语音创作平台,专注提供一站式智能语音解决方案。该创作平台是基于MaskGCT语音大模型开发的AI原生应用,背后的模型为趣丸科技与香港中文大学(深圳)共同研发,在三个TTS(文本转语音)基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平,语音生成效果更情绪饱满、媲美真人、精细可控,曾登顶GitHub趋势榜榜首、在X等海外社媒讨论热度破五十万,获得海内外一众好评。

 

目前,趣丸千音已为中国众多影视动漫、有声读物、新闻传媒、文旅导览等领域的企业提供视频翻译与配音的服务,成为内容出海的理想平台,助力本土内容开启全球化新篇章。

Demo效果展示

https://live.csdn.net/v/480800

02.趣丸千音(All Voice Lab)MCP :声音创作的全能助手

 

趣丸千音(All Voice Lab)MCP不仅仅是一个语音合成工具,它是一个完整的AI声音创作生态系统,拥有七大核心能力。

方法

简要描述

text_to_speech

将文本转换为语音

speech_to_speech

将音频转换为另一个声音,同时保留语音内容

isolate_human_voice

通过去除背景噪音和非语音声音来提取干净的人声

remove_subtitle

使用OCR技术从视频中移除硬编码字幕

video_translation_dubbing

将视频语音翻译并配音成不同语言

text_translation

将文本文件翻译成另一种语言

subtitle_extraction

使用OCR技术从视频中提取字幕

2.1TTS语音合成:让文字开口说话

趣丸千音MCP支持30+语言的自然语音生成,拟真度极高。不再是机械的电子音,而是接近真人的自然表达。

 

🌟 粤语处理的技术突破

在多语言支持中,趣丸千音在粤语处理方面实现了显著的技术突破。粤语作为声调复杂、语音变化丰富的语言,对AI语音合成提出了极高的技术挑战。趣丸千音通过深度优化的粤语语音模型,不仅能准确识别粤语的九个声调,更能自然地表达粤语特有的语音韵律和情感色彩,为粤语内容创作者提供了前所未有的技术支持。

https://live.csdn.net/v/480799

(用户将《藏海传》片段一键翻译粤语、英语、韩语)

尝试询问:将"All Voice Lab是全球领先的AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转语音、视频翻译、声音克隆等多元能力,支持多语种多音色互换,帮助全球用户高效创作,告别语言障碍。"转换成语音

2.2智能变声:高质量音色转换技术,适配游戏、录制、隐私保护等多种场景。

接着上面的例子,选择上面生成的音频文件后,尝试询问:转成男声。

2.3人声分离:极速分离人声与背景音,精度达到行业领先

选择一个声音比较丰富的,有BGM和人声的音频文件后,尝试询问:去除背景噪声。

2.4多语种配音:支持短剧、影视的一键翻译配音,保留情感韵律

选择一个视频文件后(非英文的),尝试询问:把这个视频翻译成英文。

翻译前

翻译后

《哪吒魔童闹海》一键翻译成日语、英语。

原视频

输出日语配音

输出英语配音

https://live.csdn.net/v/480795

https://live.csdn.net/v/480796

📎《哪吒魔童闹海》英语.mp4

 

2.5字幕提取:智能字幕生成,准确率超98%

选择一个带有字幕的视频,尝试询问:提取这个视频的字幕。

任务完成后,会有一个srt文件,如下图所示:

2.6字幕擦除:无痕去除视频字幕,支持复杂背景修复

选择一个带有字幕的音频文件后,尝试询问:擦除这个视频的字幕。

原视频

字幕去除后

文本翻译:多语言内容转换,为完整的语音创作流程提供支持

选择一个长文本,这里使用《愚公移山》作为示例,尝试询问:翻译这个长文本。 在不指定语言的情况下,默认会翻译为英语。

03.技术架构:安全与效率的完美平衡

3.1MCP协议的安全优势

MCP协议在设计时就充分考虑了数据安全问题。

  • 本地控制:API密钥等敏感信息保存在本地,不会泄露给第三方

  • 权限管理:只有经过验证的请求才能访问特定资源

  • 加密传输:支持多种加密算法,确保数据传输安全

  • 审计透明:所有操作都有完整的日志记录

3.2工作流程

3.3MaskGCT模型

MaskGCT(Masked Generative Codec Transformer)由趣丸科技宣布与香港中文大学(深圳)联合研发,是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。

MaskGCT在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型,某些指标甚至超过人类水平。

实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

MaskGCT模型由四个主要组件组成:

1.语音语义表示编解码器:将语音转换为语义标记。

2.语音声学编解码器:从声学标记重建波形。

3.文本到语义模型:使用文本和提示语义标记预测语义标记。

4.语义到声学模型:基于语义标记预测声学标记。

04.快速上手:5分钟体验AI声音魔法

4.1. 去官网获取API密钥

4.2. 命令行安装uv依赖

curl -LsSf https://astral.sh/uv/install.sh | sh

4.3.客户端配置

您可以使用Cherry Studio、Claude Desktop、goose等任意客户端接入趣丸千音MCP,Cherry Studio配置界面如下:

也可以复制以下配置文件,填入您自己的 API密钥即可使用:

{
  "mcpServers": {
    "AllVoiceLab": {
      "command": "uvx",
      "args": ["allvoicelab-mcp"],
      "env": {
        "ALLVOICELAB_API_KEY": "你的API密钥",
        "ALLVOICELAB_API_DOMAIN": "https://api.allvoicelab.com",
        "ALLVOICELAB_BASE_PATH": "可选,默认为用户主目录"
      }
    }
  }
}

值得提一句的是,目前趣丸千音的新注册用户有30000免费积分,快快体验起来!

05.结语

随着MCP协议的普及,我们正在见证一个AI工具生态的爆发式增长。从文件系统、数据库到各种专业工具,越来越多的服务开始支持MCP协议。趣丸千音作为声音领域的先行者,正在这个生态中占据重要位置。

趣丸千音通过进一步革新音视频制作流程,大幅降低了过往昂贵的人工翻译与配音成本及冗长的制作周期,成本较人工降低15倍+,速度提升10倍+,单个工作日可翻译约1000分钟的剧集,市场潜力巨大。目前,趣丸千音已为中国众多影视动漫、有声读物、新闻传媒、文旅导览等领域的企业提供视频翻译与配音的服务,成为内容出海的理想平台,助力本土内容开启全球化新篇章。

点击链接,即可跳转链接

https://www.modelscope.cn/mcp/servers/@allvoicelab/AllVoiceLab

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐