11Labs 支持打造对话 AI 智能体;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 开发者日报
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。素材来源官方媒体/网络新闻。
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、阿里云发布逆天大模型 Qwen2.5-Turbo 一口气读完十本小说,推理速度提升 4.3 倍!
阿里云重磅推出全新升级的 Qwen2.5-Turbo 大语言模型,其上下文长度突破至惊人的 100 万 Token。相当于 10 部《三体》,150 小时的语音转录或 3 万行代码的容量。「一口气读完十本小说」不再是梦。
Qwen2.5-Turbo 模型在 Passkey Retrieval 任务中实现了 100%的准确率,并且在长文本理解能力方面超越了 GPT-4 等同类模型。该模型在 RULER 长文本基准测试中取得了 93.1 的高分,而 GPT-4 的得分仅为 91.6,GLM4-9B-1M 的得分则为 89.9。
除了超长文本处理能力,Qwen2.5-Turbo 还兼具短文本处理的精准性,在短文本基准测试中,其性能表现与 GPT-4o-mini 和 Qwen2.5-14B-Instruct 模型相当。
通过采用稀疏注意力机制,Qwen2.5-Turbo 模型将处理 100 万 Token 的首次 token 时间从 4.9 分钟缩短至 68 秒,实现了 4.3 倍的推理速度提升。
同时,处理 100 万 Token 的费用仅为 0.3 元人民币,与 GPT-4o-mini 相比,在相同成本下可以处理 3.6 倍的内容。
阿里云为 Qwen2.5-Turbo 模型准备了一系列演示,展示了其在深度理解长篇小说、代码辅助和多篇论文阅读等方面的应用。例如,用户上传了包含 69 万 Token 的《三体》三部曲中文小说后,模型成功地用英文概括了每部小说的情节。
用户可以通过阿里云模型工作室的 API 服务、HuggingFace Demo 或 ModelScope Demo 体验 Qwen2.5-Turbo 模型的强大功能。(@AIbase 基地)
2、消息称腾讯杰出科学家、混元大模型技术负责人之一刘威离职
据报道,腾讯杰出科学家、腾讯混元大模型技术负责人之一刘威,目前已经从腾讯离职。
今年 5 月,刘威以混元大模型技术负责人之一的身份,出席 InfoQ 举办的 AICon 全球人工智能开发与应用大会并发表了《腾讯混元大模型技术和应用实践》的主题演讲。今年 9 月,他还在 2024 外滩新媒体年会上发表了题为《生成式 AI 的发展与腾讯混元大模型的实践》的主旨演讲。
刘威曾先后获得 2011 年底 Facebook 博士研究生奖学金、2013 年度哥伦比亚大学优秀博士论文奖、2014 年度计算机视觉与模式识别国际会议(CVPR)青年研究者奖、2016 年度国际信息检索大会 (SIGIR) 最优论文荣誉奖。
刘威多次担任国际权威期刊的客座编委与审稿人,自 2007 年起一直担任国际顶级会议 NIPS、CVPR、ICCV 等的程序委员成员,担任第四届自然语言处理与汉语计算会议 NLPCC 2015 的领域主席,并自 2014 年起担任美国自然科学基金信息与智能系统分部(NSF IIS Division)的研究项目评审。(@极客公园)
3、余承东首秀华为 Mate 70 Pro+ 真机外观,「金丝银锦」配色特别后盖材质
华为 Mate 70 / Pro / Pro+ 系列旗舰手机将于 11 月 26 日正式发布,目前已开启预约。
华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东在微信视频号首次晒出了 Mate 70 Pro+ 的真机。
余承东介绍称,这款新机配色名为「金丝银锦」,并称「后盖材质很特别」。
从图中可以看到,这款手机的后盖在光线下呈现出斜向拉丝纹理。(@极客公园)
02有亮点的产品
1、ElevenLabs 全新功能上线,支持打造个性化对话式 AI 智能体了
ElevenLabs 近日宣布推出用户可以构建完整对话式 AI 智能体的新功能。
用户现在可以在 ElevenLabs 的开发者平台上,依据自己的需求,定制对话智能体的多种变量,比如语音语调和回复长度。
ElevenLabs 过去主要提供不同的语音和文本转语音服务。公司增长主管 Sam Sklar 在接受 TechCrunch 采访时表示,许多客户早已在使用该平台创建对话式 AI 智能体。但在集成知识库和处理客户中断方面是最大的挑战。因此,ElevenLabs 决定构建一个完整的对话机器人管道,以便简化这一过程。
用户可以通过登录 ElevenLabs 账号,选择模板或创建新项目来开始构建对话智能体。他们可以选择智能体的主要语言、首条消息和系统提示,以确定智能体的个性。
此外,开发者还需选择大型语言模型(如 Gemini、GPT 或 Claude)、响应的温度(决定创意性)以及令牌使用限制。
用户还可以根据自己的需求添加知识库,如文件、URL 或文本块,以增强对话机器人的能力。同时,他们可以将自己的自定义大型语言模型与该机器人集成。ElevenLabs 的 SDK 兼容 Python、JavaScript、React 和 Swift,此外,该公司还提供 WebSocket API,便于进一步定制。
公司还允许用户定义数据收集标准,例如与智能体对话的客户姓名和电子邮件,并使用自然语言定义通话的成功与否评估标准。(@AIbase 基地)
2、AnyChat:一键切换多种 AI 模型,ChatGPT、Claude、Gemini 随便挑
在人工智能技术迅速发展的背景下,开发者们迫切需要一个能够灵活应用多种大型语言模型(LLM)的平台。近期推出的 AnyChat 将多个领先的 AI 模型整合到一个统一的界面上,极大地方便了开发者和企业的使用。
AnyChat 由知名 AI 专家 Ahsen Khaliq(AK)开发,他目前在 Gradio 担任机器学习增长负责人。该平台支持开发者在 ChatGPT、谷歌的 Gemini、Claude、Meta 的 LLaMA 以及 Grok 等多个模型之间无缝切换,摆脱了被单一服务提供商锁定的困境。Khaliq 表示:「我们希望构建一个让用户对模型使用拥有完全控制的平台。」
AnyChat 的核心设计旨在降低开发者的使用门槛,使其能够方便地尝试和部署不同的语言模型。通过友好的选项卡界面和下拉菜单,用户可以轻松选择具体的模型和版本。对于需要付费 API 密钥的模型,开发者可以输入自己的凭证,而部分基础模型则可以使用 Khaliq 提供的免费密钥,免去复杂的注册过程。
AnyChat 还注重对开源模型的支持,开发者可以在 Hugging Face 平台上使用更多开源选项,从而避免高昂的 API 费用。Khaliq 强调,AnyChat 的设计理念是让所有开发者都有机会接触到不同的模型,而不仅仅是依赖于商业服务。(@AIbase 基地)
3、AI 搜索独角兽 Perplexity 进军电商
AI 驱动搜索引擎 Perplexity 宣布进军电子商务领域,为美国付费客户推出了新的购物功能,这使得用户能够在 Perplexity 的搜索结果中直接获得购物推荐,并具备无需访问零售商网站即可下订单的能力。
这一服务通过展示包含产品详情、价格、卖家信息和简短描述的视觉卡片,提供了一种更加直观的购物体验。Perplexity 还允许用户存储地址和信用卡信息以简化结账流程,并为 Pro 订阅者提供免费运费服务。
此外,Perplexity 推出了商家计划,参与的商家将获得更完整的信息索引,提高成为推荐产品的机会,并且商家可以免费获得 API 访问权限,在自己的网站上提供搜索功能。
Perplexity 强调,其搜索引擎的推荐是无偏见的,因为没有赞助位置,这一新功能得益于与包括 Shopify 在内的卖家网站的集成。
随着大型语言模型的出现,Perplexity 等公司正在利用 AI 提供更好的购物搜索选项,以期改善电子商务搜索体验,同时确保消除隐性偏见和优待,以建立用户信任。(@ APPSO)
4、微软推出 Copilot Actions,使用人工智能自动执行重复性任务
微软在昨日(11 月 19 日)举办的 Ignite 大会上宣布了一系列新功能,旨在进一步提升 Microsoft 365 Copilot 的智能化水平。
其中最引人注目的是 Copilot Actions,该功能现已进入私人预览阶段。这项功能允许用户通过简单的提示,自动完成重复性的日常任务,如总结 Teams 会议、生成周报、甚至准备会议材料等。Copilot Actions 被设计成用户只需一次性设置,即可让 AI 自动执行任务,就像一个强大的 AI 宏一样,根据预设的模板和规则自动完成工作。
此外,微软也在不断优化 Microsoft 365 Copilot 在各 Office 应用中的表现。明年年初,PowerPoint 用户将能够将演示文稿翻译成 40 多种语言。而 PowerPoint 的 Copilot Narrative Builder 也将能够利用品牌模板、演讲者笔记、内置过渡和动画等元素来创建更好的演示文稿初稿。Copilot 还将能够从 SharePoint 中提取图像,并将其整合到 PowerPoint 演示文稿中。
Excel 中的 Copilot 也即将推出新的启动体验,能够根据用户需求建议合适的模板,包括标题、公式和可视化图表,帮助用户快速创建电子表格。此外,微软还在改进 Outlook 中的 Copilot,使其能够更好地与同事安排一对一会议,并生成会议议程。这项功能将于本月底面向 Copilot in Outlook 用户推出。
除了上述功能升级外,微软还将 AI 代理引入 SharePoint,以帮助用户总结文档、查询跨 SharePoint 文件的数据,并创建自定义代理,以处理有关特定 SharePoint 站点或文件列表的 AI 响应。此前,微软已开始向企业推销销售、服务和财务领域的 Copilot 代理,此次 SharePoint 的整合进一步扩大了 AI 代理的应用范围。(@IT 之家)
03有态度的观点
1、王诗沐:创业应优先考虑技术创新
在与「Founder Park」的深度访谈中,王诗沐分享了他对 SEELE 公司及其产品的愿景,强调技术创新在产品创新中的重要性,并认为 AI、3D 和区块链技术分别对应生产力、介质和生产关系。
王诗沐认为技术创新是创业的关键,他通过 SEELE 公司专注于 AI 生成 3D 游戏,旨在通过分阶段的产品验证用户需求,逐步实现技术与产品的融合。
王诗沐强调,尽管 3D AI 技术尚不成熟,但 SEELE 选择推出面向 C 端的产品以积累数据和迭代算法。他表示 SEELE 的产品不仅仅是聊天陪伴,而是 3D 互动娱乐,计划未来推出更复杂的互动娱乐产品。
王诗沐还讨论了 C.AI 产品的局限性和未来发展方向,认为 C.AI 验证了用户对情感互动的需求,并定义了人与 AI 基本互动形式。他将人与 AI 的互动视为一种社交形式,并认为 AI 技术的发展将带来新的社交体验。
此外,王诗沐提到 SEELE 的产品将服务于 AI 和 UGC,旨在降低高质量互动娱乐内容的生产门槛,让用户轻松创作个性化内容。最后,他分享了自己对创业的看法,认为创业不仅是为了财富,更是为了实现对世界、用户和产品的理解和思考。(@ APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
更多推荐
所有评论(0)