GPT-4能玩转乐高？首个多步空间推理测评出炉：闭源模型领先，但仍不及人类

乐高积木，AI的全新考场

近年来，人工智能（AI）的发展速度令人瞠目结舌，尤其是大型语言模型（LLM）如GPT-4o，它们不仅能进行复杂的对话，还能创作诗歌和绘画。然而，AI是否真正理解了我们所处的物理世界？这个问题引发了广泛的讨论。最近，一个新的评估基准诞生了，它专门测试AI在多步空间推理方面的能力，而这项评估的载体，竟然是孩子们喜爱的乐高积木。这不仅让人感到新奇，也引发了一个有趣的问题：GPT-4o能拼好乐高吗？

乐高积木的独特魅力

乐高积木作为一种玩具，早已深入人心。它不仅仅是孩子们的玩具，更是成年人创意与想象力的载体。乐高积木的独特之处在于，它需要拼装者具备一定的空间推理能力。无论是简单的小房子，还是复杂的机器人模型，每一步的拼装都需要对空间关系有清晰的理解和规划。

多步空间推理的挑战

多步空间推理是指在给定一系列指令的情况下，AI需要逐步完成任务。例如，将红色的积木放在蓝色的积木上面，然后将这个零件插入到那个孔里。这些看似简单的指令，对于AI来说却是一个巨大的挑战。AI不仅需要理解语言指令，还需要对空间关系进行感知、推理和规划。

与传统的图像识别、物体检测等任务不同，乐高拼装任务需要AI进行多步推理，每一步的正确性都会影响最终的结果。这意味着AI需要具备较高的空间推理能力和长期规划能力。

初步测试结果

初步的测试结果显示，在多步空间推理评测基准中，闭源模型表现出了相对领先的水平。例如，GPT-4o在简单的一步推理（k=1）中，准确率达到了75%。而谷歌的Gemini-2.0-Flash甚至高达85%。这表明，这些大型模型在理解单个空间指令方面已经具备了一定的能力。

然而，随着推理步骤的增加，模型的准确率迅速下降。当k=4或k=5时，GPT-4o的性能出现了明显的下滑。这意味着，AI在处理复杂的多步空间推理任务时，仍然面临着巨大的挑战。与人类相比，AI的表现还相去甚远。

AI的局限性

AI在多步空间推理方面的表现不佳，原因可能有很多。首先，AI缺乏对物理世界的真实体验。它们通过海量的数据进行学习，但缺乏对物理规律、物体属性的直接感知。其次，现有的AI模型在长期规划、空间记忆等方面仍然存在不足。它们可能能够理解单个指令，但难以将多个指令串联起来，形成一个完整的拼装方案。

GPT-4o的架构

虽然新闻摘要没有详细介绍，但提到“GPT-4o图像生成架构被‘破解’了？自回归主干+扩散解码器”，这暗示了GPT-4o在图像生成方面可能采用了自回归模型作为主干，结合扩散模型进行解码。这种架构的优势在于，自回归模型能够捕捉图像的上下文信息，而扩散模型能够生成高质量的图像细节。

这种架构的技术逻辑，也可能部分地应用于其空间推理能力。例如，自回归模型可以用来预测下一步的操作，而扩散模型可以用来生成可能的拼装方案。

乐高挑战的意义

乐高拼装任务看似简单，但它却触及了人工智能的核心问题：如何让AI真正理解和模拟人类的智能？多步空间推理能力是人类智能的重要组成部分，也是实现通用人工智能（AGI）的关键一步。

如果AI能够像人类一样，轻松地理解和完成复杂的乐高拼装任务，那么它将能够更好地理解和适应真实世界。这不仅意味着AI能够帮助我们完成各种各样的任务，例如自动化组装、机器人导航等，更意味着AI将能够真正地理解我们的需求，与我们进行更自然、更智能的交互。

未来展望

虽然目前的AI在多步空间推理方面仍然存在差距，但我们有理由相信，随着技术的不断进步，AI将会越来越智能。未来的研究方向可能包括：

加强AI对物理世界的感知和模拟： 可以通过引入更多的传感器数据、物理引擎等，让AI更好地理解物理规律和物体属性。
提升AI的长期规划和空间记忆能力： 可以通过引入更先进的记忆机制、规划算法等，让AI能够更好地完成复杂的多步推理任务。
探索更有效的学习方法： 可以通过结合强化学习、迁移学习等方法，让AI能够更快地学习和适应新的环境。

乐高挑战只是一个开始，它为我们提供了一个评估和改进AI空间推理能力的平台。通过不断地挑战AI，我们可以不断地推动人工智能的发展，最终实现通用人工智能的梦想。

结语：拼好乐高，拼出未来

AI能否拼好乐高？这个问题不仅仅关乎乐高积木本身，更关乎人工智能的未来。它代表了我们对于AI智能的更高期望，以及我们对于AI与人类协同共创美好未来的憧憬。虽然目前AI还不能完全胜任这项任务，但这正是我们前进的动力。每一次失败，都是一次学习的机会；每一次进步，都是一次新的突破。让我们一起期待，在不久的将来，AI能够真正地拼好乐高，拼出更加美好的未来！