阿里开源首个视觉推理模型，击败GPT-4o，网页一度404

过年关啦！阿里送上了今年最后一份礼物——，其中V代表视觉。它只需读取图像和指令，就可以开始思考。据介绍，这可能是全球第一个视觉推理模型，也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。可以解决数物化生等各领域问题。读梗图、数鸭子也不在话下。目前该模型处于实验阶段，开放测试。结果可能因为访问过多，网页一度还404了。从性能表现上看，QVQ在MMMU 上的得分为 70.3，这一结果超过GP

小马不会过河

1007人浏览 · 2024-12-27 17:43:24

小马不会过河 · 2024-12-27 17:43:24 发布

过年关啦！阿里送上了今年最后一份礼物——

“眼睛”模型QVQ，其中V代表视觉。它只需读取图像和指令，就可以开始思考。

I’m watching you！

据介绍，这可能是全球第一个视觉推理模型，也可以把它理解为上个月开源的阿里版o1模型QwQ的视觉版本。

可以解决数物化生等各领域问题。

读梗图、数鸭子也不在话下。

目前该模型处于实验阶段，开放测试。

结果可能因为访问过多，网页一度还404了。

从性能表现上看，QVQ在MMMU 上的得分为 70.3，这一结果超过GPT-4o、Claude 3.5 Sonnet，但比o1模型还差了那么一点。

阿里开源首个视觉推理模型

官方给了几个演示Demo，让咱们好好感知一下它的推理能力。

首先来看这道数学题。

解题思路如下：

再来个几何题，算算这个沙发的面积。

它的推理过程如下：

高中化学题：图片中的滤液E是什么化学物质？

它的答案是：硫酸亚铁溶液。

他们在四个数据集对眼睛模型QVQ-72B-Preview进行了评估，包括MMMU、MathVista、MathVision、OlympiadBench，主要考察数学多模态推理以及综合理解推理方面的能力。

QVQ-72B-Preview在 MMMU 基准测试中取得了70.3分，大大超过了其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个以数学和科学问题为重点的基准测试中，该模型也表现出了卓越的性能，缩小了与o1模型之间的差距。

不过目前该模型属于是团队的实验研究模型，不是特别稳定，有几个限制需要注意。

语言混合和代码切换：该模型可能会意外地混合语言或在语言之间切换，从而影响回答的清晰度。
递归推理：模型可能会陷入循环逻辑模式，产生冗长的回复而无法得出结论。
安全和道德方面的考虑：该模型需要加强安全措施，以确保性能可靠和安全，用户在部署时应谨慎。
性能和基准限制：尽管该模型在视觉推理方面有所改进，但它不能完全取代 Qwen2-VL-72B-Instruct 的功能。此外，在多步骤视觉推理过程中，模型可能会逐渐失去对图像内容的关注，从而导致幻觉。

好好预防针打了，那咱们浅浅实测一波。

比如这道考验谷歌版o1的题目：

如何利用这些数字加起来等于30？

结果它识别出来了这几个球对应的数字，没有意识到9号球可以翻转成6号球，然后就陷入无尽的思考之中。。。

在blog最后，他们也透露了接下来的目标——增强视觉语言基础模型，使其具备基于视觉信息进行深度思考和推理的高级能力。

把时间拉长，他们计划是将更多的模态整合到统一的模型中，能够应对复杂的挑战并参与科学探索。

（模型尽头是AI For Science？）

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述