1. Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

最近,OpenAI o1 已经激发了对大规模推理模型(LRM)研究的热情。在此基础上,Marco-o1 继续不仅专注于数学、物理和编程等有标准答案的领域——这些领域非常适合进行强化学习(RL)——而且更加注重开放性问题的解决。我们想探讨一个问题:“o1 模型能否有效地应用于那些缺乏明确标准且奖励难以量化的更广泛的领域?”Marco-o1 通过链式思考(CoT)微调、蒙特卡洛树搜索(MCTS)、反思机制和创新的推理策略进行驱动,这些策略提升了解决复杂现实世界问题的能力。

论文: https://arxiv.org/pdf/2411.14405

2. Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

现有的开源多模态大语言模型(MLLMs)通常遵循一个包含预训练和监督微调的训练过程。然而,这些模型因分布变化而受限,这限制了它们的多模态推理能力,特别是在链式思维(CoT)的表现上。为了解决这一问题,我们提出了一种偏好优化(PO)过程来增强MLLMs的多模态推理能力。具体来说,(1)在数据方面,我们设计了一个自动偏好数据构建流程,创建了一个高质量、大规模的多模态推理偏好数据集MMPR;(2)在模型方面,我们探索将PO与MLLMs集成,开发了一种简单有效的办法,称为混合偏好优化(MPO),该办法提升了多模态CoT的表现。我们的方法在多个基准测试中表现出提升的性能,特别是在多模态推理任务上。值得注意的是,我们的模型InternVL2-8B-MPO在MathVista上的准确率为67.0,比InternVL2-8B提高了8.7个百分点,并且达到了与10倍更大的InternVL2-76B相当的性能。我们希望这项研究能够推动MLLMs的进一步发展。代码、数据和模型将公开发布。

论文: https://arxiv.org/pdf/2411.10442

3. Multimodal Autoregressive Pre-training of Large Vision Encoders

我们提出了一种新的方法,用于大规模视觉编码器的预训练。基于最近在视觉模型自回归预训练方面的进展,我们将这一框架扩展到多模态设置,即图像和文本。在本文中,我们提出了AIMV2,这是一个具有简单预训练过程、可扩展性和在多种下游任务中的出色表现的一系列通用视觉编码器组成的家族。这通过将视觉编码器与多模态解码器配对实现,后者自回归生成原始图像片段和文本标记。我们的编码器不仅在多模态评估中表现出色,在视觉基准测试中(如定位、对接和分类)也表现出色。值得注意的是,我们的AIMV2-3B编码器在冻结主干的情况下,其准确率达到89.5%。此外,AIMV2在各种设置下的多模态图像理解中始终优于最先进的对比模型(如CLIP、SigLIP)。

论文: https://arxiv.org/pdf/2411.14402

4. Hymba: A Hybrid-head Architecture for Small Language Models

我们提出了一种名为Hymba的小型语言模型家族,采用了混合头并行架构,将transformer注意力机制与状态空间模型(SSMs)集成,以提高效率。注意力头提供高精度回忆,而SSM头则能够高效地进行上下文总结。此外,我们还提出了可学习的元令牌,将其添加到提示文本前,存储关键信息并减轻注意力机制带来的“被迫关注”负担。该模型进一步通过跨层键值(KV)共享和部分滑动窗口注意力进行优化,从而实现紧凑的缓存。在开发过程中,我们在相同的条件下对比了各种架构,并观察到了我们提出架构的显著优势。值得注意的是,Hymba在小型语言模型中达到了最先进的成果:我们的Hymba-1.5B-Base模型超过了所有小于2B的公开模型,并且在平均准确率上比Llama-3.2-3B高出1.32%,缓存大小减少了11.67倍,吞吐量提高了3.49倍。

论文: https://arxiv.org/pdf/2411.13676

5. OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs

科学进步取决于研究人员整合日益增长的文献库的能力。大语言模型(LMs)能否帮助科学家完成这一任务?我们提出了OpenScholar,这是一种专门的检索增强LM,通过识别来自4500万篇开放获取论文的相关段落并综合引证支持的回答来回答科学查询。为了评估OpenScholar,我们开发了ScholarQABench,这是首个大规模多领域文献搜索基准体系,包含2967个专家编写的问题和计算机科学、物理学、神经科学和生物医学领域的208个长格式答案。在ScholarQABench上,OpenScholar-8B的正确性比GPT-4o高5%,比PaperQA2高7%,尽管它是一个较小的开源的大语言模型。虽然GPT-4o有78%到90%的时间虚构引用,但OpenScholar的引文准确性与人类专家相当。OpenScholar的数据存储库系统、检索器和自我反馈推理循环也改进了现成的LMs:例如,OpenScholar-GPT4o将GPT-4o的正确性提高了12%。在人类评估中,专家们分别有51%和70%的比例更偏好OpenScholar-8B和OpenScholar-GPT4o的回答,而GPT-4o的回答只有32%。我们开源了所有代码、模型、数据存储库系统、数据。

论文: https://arxiv.org/pdf/2411.14199

6. Natural Language Reinforcement Learning

强化学习(RL)通过马尔可夫决策过程(MDP)对决策制定进行了数学公式化。借助MDP,研究人员在游戏、机器人技术和语言模型等多个领域取得了显著进展。本文通过将传统的MDP扩展到基于自然语言的表现空间,探索了新的可能性——自然语言强化学习(NLRL)。具体而言,NLRL创新性地将RL的基本原则,包括任务目标、策略、价值函数、贝尔曼方程和策略迭代,重新定义为语言对应的版本,这些原则在自然语言中得到了重新定义。借助近年来大型语言模型(LLMs)的进展,NLRL可以实际实现类似RL的策略和价值改进,可以通过纯提示或梯度训练来实现。实验表明,NLRL框架在多种应用场景中具有有效性、高效性和可解释性。我们的代码将在https://github.com/waterhorse1/Natural-language-RL发布。

论文: https://arxiv.org/pdf/2411.14251

最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐