浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓

探索多模态创造力:GPT-4.5与视觉创造力基准的较量

随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其应用于真实场景的多模态任务时,我们发现其表现可能并未达到预期。近日,浙江大学联合上海人工智能实验室等团队发布的全球首个多模态创造力评测基准,为我们揭示了多模态大模型在现实场景中的创造力较量。

首先,我们需要理解什么是多模态创造力。在人工智能的“智力三元论”中,创造性智能(Creative Intelligence)始终是最难评估和攻克的一环。它涉及在不同背景下生成新颖和适当解决方案的能力,这正是多模态大模型在现实场景中展现出创造力的关键。

现有的多模态大模型评测基准,如MMBench、MMMU等,往往更偏重于分析性或实用性任务,而忽略了多模态AI在真实生活中常见的“创意类任务”。然而,这些任务对于人类来说是驾轻就熟的,但对于现有的部分多模态大模型却往往是“高难动作”。这正是浙江大学联合团队发布的全球首个多模态创造力评测基准——Creation-MMBench所要解决的问题。

在深度探讨Creation-MMBench之前,我们需要了解为何我们要关注视觉创造智能。在人工智能的智力体系中,视觉智能是理解世界的重要一环。在创造性智能中,视觉内容理解与情境适应的能力尤为重要。相较于其他广泛使用的多模态评测基准,Creation-MMBench具有更全面和复杂的问题设计,大多数问题的长度超过500个词元,这有助于模型捕捉更丰富的创意上下文。

Creation-MMBench的核心在于真实场景的多模态融合。它涵盖了四大任务类别、51项细粒度任务,用765个高难度测试案例,为多模态大模型的“视觉创意智能”提供全方位体检。其中,任务类别包括文学创作、日常功能性写作、专业功能性写作以及多模态理解与创作。这些任务需要模型具备视觉内容理解、情境适应以及创意性文本生成等多重能力,这是现有基准难以评估的核心能力。

为了确保评判的公正性和一致性,团队使用了GPT-4O作为评判模型,并采用了双重评估体系。他们选择了使用多模态大模型作为评判模型,同时使用两个不同指标进行双重评估。这包括视觉事实性评分(VFS)和创意奖励分(Reward)。视觉事实性评分确保模型不是“瞎编”,而创意奖励分则考察模型是否能够结合视觉内容生成有创意的文本。

为了验证评判模型的可靠性,团队还招募了志愿者对13%的样本进行人工评估。结果显示,GPT-4O展现出了更强的人类偏好一致性,同时也证明了双向评判的必要性。这表明传统的客观指标可能无法完全捕捉模型在复杂现实场景中的创造能力,而Creation-MMBench填补了这一领域的重要性。

值得注意的是,GPT-4.5在语言生成能力上的提升并未带来其在多模态创造力上的显著提升。在与全球首个多模态创造力评测基准Creation-MMBench的对比实验中,GPT-4.5在某些任务上的表现甚至不及GPT-4O。这让我们重新思考GPT-4.5的真正潜力以及多模态创造力评测的重要性。

总的来说,Creation-MMBench作为一个新颖的基准,旨在评估多模态大模型在现实场景中的创造能力。该基准包含765个实例,涵盖51个详细任务,为多模态大模型的创造力提供了全方位的评估。尽管GPT-4.5在语言生成能力上有所提升,但在真实场景中的多模态创造力较量中,我们仍需借助像Creation-MMBench这样的评测基准来揭示其真实能力。

希望这篇文章符合您的要求,如果您还有其他问题,欢迎随时向我提问。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-04-04
浙大上海AI Lab发布全球首个创造力评测基准:GPT-4.5创造力不及GPT-4O,真实场景下的创造力较量揭晓
探索多模态创造力:GPT-4.5与视觉创造力基准的较量 随着GPT-4.5在语言生成能力上的显著提升,其创造力也引发了广泛关注。然而,当我们将其...

长按扫码 阅读全文