黑料不打烊备用:多模态时代如何评估模型视觉输出能力?RBench-V给出答案

过去我们常对多模态输入及纯文本推理进行测试,然而,RBench – V现在却能评估大模型依赖“绘图”功能的视觉推理效能,这一突破确实令人感到震惊。

评测新突破

传统评估通常关注于多模态信息的输入以及纯文本的推理。但RBench – V有着独特的特点,它特别对主流的大型模型在“绘画”这一视觉推理能力方面进行了评价。不同于以往的多模态评测仅要求模型提供文字回答,RBench – V的每个题目都明确要求模型生成或修改图像内容,以此来帮助进行推理。这就像要求大模型模仿人类专家,通过绘画的方式来思考问题。

20XX年,我们启动了这项评测活动,这标志着我们对模型性能进行了一次勇敢的探索。与过去不同,这次评测特别突出了模型运用图像进行思考的能力。这种创新的评估方法,为人们提供了一个全新的角度,去审视大型模型的能力。

模型现短板

尽管GPT-4o、Gemini、o3等新型的大型模型声称拥有了“多模态理解和生成”的能力,但在RBench-V评测中,它们在涉及图像输出参与推理的任务上并未展现出出色的表现。即便是那些最顶尖的闭源模型,其表现也远远不及人类的视觉推理能力。

在RBench – V评测中,闭源模型与开源模型的表现呈现出显著差异。闭源模型虽略胜一筹,但与人类专家平均达到的82.3%准确率相较,二者间的差距依旧显著。这种情况充分显示出,当前模型在处理复杂多模态推理任务时的认知能力尚有较大不足。

开源困境显

在开源模型领域,诸如Qwen2.5VL、InternVL、LLaVA – OneVision等主流模型,其准确率普遍介于8%至10%之间。在这些模型中,部分任务的表现与随机猜测相差无几。

这种显著的差异显现出,目前的开源生态在处理多模态输出的生成过程中遇到了技术难题。开源模型在将图像的解读转化为辅助思维进行图像绘制的功能上存在显著不足,导致它们在处理复杂的视觉推理任务时难以充分施展其潜力。

能力差异大

模型在视觉推理测试中的表现存在显著差异,这表明单纯扩大模型参数的规模、增加图像输入的通道数,或在文本处理中运用长链条思维策略,并不能真正增强模型的视觉推理水平。尽管这些模型具备众多参数和宽广的输入途径,但在生成图像输出方面,它们仍然难以达到令人满意的水准。

实验数据表明,对于参数量较多的模型来说,在执行RBench-V视觉推理任务时,它们的性能并没有超过那些参数量较少的模型。这一现象表明,目前提升模型视觉推理能力的策略效果并不显著。

推理缺技巧

RBench-V的研究表明,在处理与空间直观和图像操作相关的几何问题的大规模模型时,这些模型往往倾向于采取一种“简便”的策略,将图形问题转化为代数问题,并沿着文本推理的路径去寻找答案。与此同时,人类专家在思考问题时,更倾向于使用直观的可视化方法。

实验结果显示,即便模型已经学会了如何处理长文本进行推理,或者具备了“看图说话”的本领,但在面对需要输出图像的复杂问题时,它们往往显得有些力不从心。这一情况充分反映出,在运用图像进行推理这一能力方面,模型与人类之间存在着明显的差距。

突破寻方向

RBench-V团队指出,若要使大型模型拥有与人类相似的智能,关键在于建立一个认知系统。这个系统在推理时能自行产生图像,并通过构图来辅助思考。唯有实现这一目标,大模型才能更高效地应对那些包含视觉推理的复杂问题。

目前,在视觉推理领域,大规模模型与人类专家相比,差距明显,尤其在处理复杂的视觉推理任务时。无论是闭源还是开源的模型,表现都未能达到预期。面对这样的技术难题,我们该如何突破,提升大模型的视觉推理能力?欢迎大家积极在评论区发表你们的观点,别忘了点赞并转发这篇文章!

本站文章全部是ai生成或采集于网络,无任何侵权行为,如果有任何侵权问题联系邮箱38423336@qq.com,侵权等任何非法活动,否则后果自负!
© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容