作者:InternLM、Qwen 等 LLM每日一览热门论文版,顶会投稿选题不迷惘。来看看机智流和modelscope社区今日推荐的热门论文吧。


RuCCoD: Towards Automated ICD Coding in Russian

论文链接:
https://modelscope.cn/papers/121670

简要介绍:
由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。


Unified Reward Model for Multimodal Understanding and Generation

论文链接:
https://modelscope.cn/papers/124332

简要介绍:
由复旦大学、上海AI实验室等机构联手打造的UnifiedReward,提出了首个统一的多模态理解与生成评估奖励模型。针对现有任务特定模型的局限性,该模型通过联合学习图像和视频任务,利用大规模人类偏好数据集,实现了成对排序和逐点评分。实验证明,其通过直接偏好优化(DPO)显著提升了视觉模型性能,展现了跨任务协同增益的潜力。

核心图片:


EuroBERT: Scaling Multilingual Encoders for European Languages

论文链接:
https://modelscope.cn/papers/124319  

简要介绍:
由CentraleSupélec、里斯本大学等机构研发的EuroBERT,重新审视了多语言编码器的发展,推出了一组覆盖欧洲及全球广泛使用语言的模型。EuroBERT在检索、分类和回归任务中超越现有模型,支持高达8192 token的序列,且无需位置嵌入。团队公开了模型及训练框架,为多语言研究注入新活力。

核心图片:


S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

论文链接:
https://modelscope.cn/papers/124126  

简要介绍:
由香港中文大学(深圳)提出的S2S-Arena,是首个关注语音到语音(S2S)指令遵循能力并融入副语言信息的基准测试。包含154个样本,覆盖4个领域21个任务,该研究揭示了现有语音模型在理解输入副语言信息上的潜力,但生成相应音频仍具挑战性,为未来多模态语音模型设计提供了方向。

核心图片:


Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

论文链接:
https://modelscope.cn/papers/124263  

简要介绍:
由KAIST和DeepAuto.ai提出的Sketch-of-Thought(SoT),通过认知启发的推理范式优化大语言模型的推理效率。SoT引入三种自适应范式减少76%的token使用,同时保持甚至提升数学和多跳推理的准确性。其代码已开源,展示了高效推理的巨大潜力。

核心图片:


R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

论文链接:
https://modelscope.cn/papers/124102  

简要介绍:
由加州大学洛杉矶分校等机构提出的R1-Zero,在2B非SFT模型上首次复现了多模态推理中的“顿悟时刻”。基于Qwen2-VL-2B,通过强化学习,该模型在CVBench上提升约30%准确率,超越SFT设置,揭示了非监督模型在视觉推理中的潜力。

核心图片:


Forgetting Transformer: Softmax Attention with a Forget Gate

论文链接:
https://modelscope.cn/papers/122938

简要介绍:
由Mila及蒙特利尔大学提出的Forgetting Transformer(FoX),通过在softmax注意力中引入遗忘门,增强了Transformer的长上下文建模能力。FoX在语言建模和下游任务中表现出色,且兼容FlashAttention,开源代码进一步推动了研究。


R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

论文链接:
https://modelscope.cn/papers/124030  

简要介绍:
由中国人民大学提出的R1-Searcher,通过两阶段强化学习框架提升大语言模型的搜索能力。无需预训练或蒸馏,该方法使模型自主调用外部搜索系统,显著超越传统RAG方法,甚至挑战GPT-4o-mini,展现了强大的泛化性。

核心图片:


SafeArena: Evaluating the Safety of Autonomous Web Agents

论文链接:
https://modelscope.cn/papers/124153  

简要介绍:
SafeArena由多机构合作推出,是首个评估网络代理恶意使用的基准测试。包含250个安全和250个有害任务,覆盖五大危害类别。测试显示GPT-4o等模型对恶意请求的遵从率高达34.7%,凸显了网络代理安全对齐的迫切需求。

核心图片:


VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

论文链接:
https://modelscope.cn/papers/124052  

简要介绍:
由香港中文大学、腾讯ARC Lab等提出的VideoPainter,推出了双流架构实现任意长度视频修复和编辑。通过轻量级上下文编码器和ID重采样技术,该模型在390K+片段的VPData上训练,展现了卓越的视频质量和一致性。

核心图片:


结语:
今天的热点论文推荐到此结束!从俄语编码自动化到视频修复创新,每一篇论文都为AI领域带来了新的火花。🔥 您最看好哪项研究?欢迎留言讨论,一起期待AI的更多突破!🚀

-- 完 --

欢迎访问 https://chat.intern-ai.org.cn/

和书生·浦语一起读论文

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐