北京交通大学与清华大学联合发现：AI的"想象力"其实只是在装模作样_AI知识网,一站式人工智能学习平台

摘要：这项由北京交通大学计算机与信息技术学院和清华大学联合开展的研究发表于2026年2月27日，目前处于预印本阶段。有兴趣深入了解的读者可以通过arXiv:2602.22766v1查询完整论文。...

这项由北京交通大学计算机与信息技术学院和清华大学联合开展的研究发表于2026年2月27日，目前处于预印本阶段。有兴趣深入了解的读者可以通过arXiv:2602.22766v1查询完整论文。

当我们看电影时，常常会被主角的推理过程深深吸引。他们会闭上眼睛，在脑海中重现案发现场，想象各种可能性，然后突然灵光一现找到答案。如今的人工智能也学会了这种"想象"的本领，但这项最新研究却发现了一个令人意外的真相：AI的想象力可能只是一场精心设计的表演。

研究团队将目光投向了当前最热门的多模态大语言模型。这些AI系统就像是拥有超强记忆力和推理能力的数字大脑，不仅能理解文字，还能"看懂"图片，甚至能在解决复杂视觉问题时进行"想象"。当面对一道需要多步推理的视觉题目时，这些AI会生成一系列被称为"潜在令牌"的神秘信号，研究人员相信这些信号代表了AI的"内心独白"和"视觉想象"。

然而，当研究团队像医生给病人做CT扫描一样，深入检查这些AI的"大脑活动"时，却发现了一个惊人的秘密。这些看似神秘的潜在令牌实际上并没有承担真正的推理工作，更像是演员在台上的空洞表演，虽然看起来很专业，但实际上对剧情发展毫无贡献。

**一、揭开AI想象力的神秘面纱**

要理解这个问题，我们首先需要明白什么是"潜在视觉推理"。设想你是一名侦探，正在调查一起复杂案件。传统的AI就像是只会按部就班查阅档案的助手，而新一代的AI则声称能像你一样"想象"案发过程。它们会在"脑海"中生成一系列神秘的信号，就好像在心里默默地重现案发现场，然后基于这些"想象"给出答案。

这种被称为潜在视觉推理的技术，本质上是让AI在其内部的高维空间中进行"思考"。就像人类在解决问题时会在脑海中构建各种画面和场景一样，AI也会生成一串特殊的数字信号。研究人员将这些信号称为"潜在令牌"，认为它们承载着AI的视觉想象和推理过程。

在实际运作中，这个过程就像是三个紧密相连的齿轮。第一个齿轮是输入信息，包括问题和相关图片。第二个齿轮是潜在令牌，也就是AI的"想象"过程。第三个齿轮是最终答案。按照设计理念，这三个齿轮应该环环相扣，输入驱动想象，想象推动答案。

但研究团队决定用一种叫做"因果中介分析"的方法来验证这个假设。这种方法就像是给机械钟表做精密检测，逐一检查每个齿轮是否真的在发挥作用。他们要看看当输入发生变化时，潜在令牌是否会相应改变，以及当潜在令牌被人为干扰时，最终答案是否会受到影响。

**二、第一个令人震惊的发现：AI的想象千篇一律**

研究团队首先进行了一个简单但富有启发性的实验。他们选取了100个不同的视觉推理题目，就像给同一个学生出了100道完全不同的数学题。按理说，面对不同的问题，AI应该产生不同的"想象"，就像我们思考不同问题时大脑会有不同的活跃模式。

结果却让人大跌眼镜。无论是什么样的问题，无论图片内容多么不同，AI产生的潜在令牌竟然高度相似，相似度高达90%以上。这就好比一个演员无论演什么角色，都只会同一种表情和动作。更令人吃惊的是，即使是来自完全不同任务领域的问题，AI的"想象"模式依然惊人地相似。

研究团队进一步发现，随着推理过程的进行，这种相似性还在不断加剧。就像一群本来各有特色的人，随着时间推移逐渐变得面目模糊，最终都变成了同一个模子刻出来的样子。在推理的早期阶段，潜在令牌还保持着些许差异，但到了后期，它们几乎变得完全一致。

为了验证这个发现，研究团队测试了三个不同的AI系统：专注于通用场景的Monet、使用图像特征监督的LVR，以及针对特定任务优化的Mirage。令人惊讶的是，这种现象在所有系统中都普遍存在，只是退化的速度和程度略有不同。

这个发现彻底打破了人们对AI想象力的美好幻想。真正的想象应该是丰富多彩、因情境而异的，但这些AI的"想象"却像是工厂流水线上生产的标准化产品，缺乏任何个性和针对性。

**三、第二个震撼发现：想象内容可以随意替换**

既然AI的想象如此雷同，研究团队决定进行一个更加大胆的实验：直接替换或干扰这些潜在令牌，看看会对最终结果产生什么影响。这就像是偷偷替换掉演员的台词，看看观众是否会注意到。

实验设计得相当严格。研究团队采用了多种干扰方式，包括将所有潜在令牌替换为完全相同的数值，向其中注入随机噪声，甚至用完全随机的数据替换原有令牌，以及将所有令牌设置为接近零的微小数值。按照常理，如果这些令牌真的承载着重要的推理信息，那么如此剧烈的改变应该会导致AI的表现大幅下降。

然而实验结果再次出人意料。在多个主流视觉推理数据集上，即使对潜在令牌进行了如此激进的干扰，AI的整体表现几乎没有受到影响。在某些情况下，性能甚至还略有提升。这就好比你偷偷把一台精密仪器的核心部件替换成了塑料玩具，结果发现这台仪器依然正常工作，甚至工作得更好了。

这种现象在不同的AI系统中都得到了验证。只有在极端情况下，比如将潜在令牌设置为极小的数值导致系统陷入重复循环时，性能才会出现明显下降。但在其他所有情况下，无论如何折腾这些所谓的"想象"内容，AI都能保持原有的推理能力。

这个发现彻底颠覆了人们对AI推理机制的理解。如果潜在令牌真的像研究人员设想的那样承载着重要的视觉推理信息，那么对其进行任何显著改动都应该产生明显影响。但现实情况是，这些令牌更像是装饰品，存在与否对系统的实际功能并无实质影响。

**四、第三个关键发现：想象内容空洞无物**

为了进一步验证前面的发现，研究团队设计了一个精巧的"探测实验"。他们的思路很简单：如果潜在令牌真的编码了丰富的视觉信息，那么单独使用这些令牌应该能够回答与原始图像相关的其他问题。

实验过程就像是给AI做视力检查。研究团队首先让AI看一张图片并产生相应的潜在令牌，然后将这些令牌提取出来，重新包装成30个新的选择题，这些题目都是关于同一张图片但询问不同的细节。如果潜在令牌真的"看见"并"理解"了图片内容，那么它们应该能够正确回答这些衍生问题。

结果再次令人失望。仅仅依靠潜在令牌的AI表现糟糕透顶，甚至不如随机猜测。相比之下，当AI能够看到原始图片时，无论是改进后的Monet系统还是先进的Qwen3-VL-32B，都能达到76.67%的准确率，这证明了测试题目本身的质量和合理性。

这个对比实验就像是测试一个声称能"品味"美食的机器人。如果这个机器人真的理解了食物的味道，那么即使不重新品尝，也应该能回答关于这道菜的基本问题。但现实情况是，这些潜在令牌就像是失去了所有味觉信息的空壳，根本无法支撑任何有意义的推理。

更有趣的是，研究团队发现这些潜在令牌在不同位置上的编码信息也极其有限。就像是一本看起来厚重的书，翻开后却发现每一页都是空白的。无论是早期生成的令牌还是后期生成的令牌，都无法为下游推理提供有效支撑。

**五、破解真相：文本想象远胜潜在空间**

面对这些令人困惑的发现，研究团队开始思考一个根本性问题：既然潜在令牌如此无用，那么AI究竟是如何完成复杂视觉推理的呢？为了回答这个问题，他们提出了一个大胆的替代方案。

与其让AI在神秘的潜在空间中进行"想象"，不如让它用普通人都能理解的文字来描述自己的思考过程。这个想法听起来很简单，就像是要求学生不仅要给出答案，还要清楚地写出解题步骤。但实现起来却需要精心的设计。

研究团队重新构建了训练数据，将原本在推理过程中使用的辅助图像转换为详细的文字描述。当AI需要"放大"某个区域时，不再生成神秘的潜在信号，而是明确描述"在图像的左下角，有一个红色矩形框突出显示了智利和格陵兰的位置"。当需要进行视觉操作时，AI会详细说明所见所想，比如"假设在图像上画一条数值为4的直线作为参考标准"。

这种方法被称为CapImagine，其核心理念是让AI的"想象"过程完全透明化。就像是要求魔术师不仅要表演魔术，还要解释每一个手法的原理。通过这种方式，研究团队希望验证文字形式的推理是否能比潜在空间的推理更加有效。

为了确保实验的公正性，研究团队使用了与原有方法完全相同的数据源，只是改变了表现形式。他们还经过了严格的数据清理过程，过滤掉质量较差的样本，最终保留了17000个高质量的训练实例。

**六、惊人的实验结果：文字想象完胜**

实验结果令所有人刮目相看。使用文字想象的CapImagine系统在所有测试基准上都显著超过了使用潜在令牌的方法。在HR-Bench-8K测试中，改进幅度达到了4.0%，在MME-RealWorld-Lite测试中更是提升了4.9%。这些数字看似不大，但在AI领域却代表着巨大的进步。

更令人印象深刻的是，CapImagine不仅在细粒度视觉感知任务上表现出色，在需要抽象推理的复杂任务中也展现了强大实力。在拼图重组和多视角推理等需要重构全局结构的任务中，新方法比传统的潜在空间方法提升了超过10个百分点。

为了验证这些改进的来源，研究团队进行了细致的对比实验。他们发现，如果去掉文字描述而只使用简单的占位符，系统性能会显著下降。这证明了详细的文字想象确实在推理过程中发挥了关键作用。同样，如果跳过数据清理步骤直接使用原始数据，效果也会大打折扣，说明高质量的训练数据至关重要。

最有趣的是因果分析结果。当研究团队对CapImagine进行同样的干扰实验时，发现文字形式的"想象"确实表现出了强烈的因果关系。不同的输入会产生明显不同的推理描述，而当人为改变这些描述时，最终答案也会发生相应变化。这与潜在令牌的表现形成了鲜明对比。

在效率方面，CapImagine也表现不俗。虽然生成了更长的文字序列，但推理速度与原有的潜在方法相当，同时比需要多轮图像处理的工具增强方法快了近一倍。这说明文字想象在保持高质量推理的同时，还能维持良好的实用性。

**七、深层原因分析：为什么文字更胜一筹**

这些实验结果引发了一个深刻的问题：为什么看似简单的文字描述会比复杂的高维潜在空间更有效呢？研究团队的分析揭示了几个关键原因。

首先，文字具有天然的结构化和可解释性。当AI用文字描述自己的推理过程时，每个词语都承载着明确的语义信息，这些信息可以被后续的推理步骤有效利用。相比之下，潜在空间中的数值向量虽然维度很高，但其编码的信息往往是隐式和模糊的，难以被精确地提取和利用。

其次，文字推理更符合人类的认知模式。人类在解决复杂问题时，往往会在内心进行"自言自语"，用语言来组织和引导思维过程。AI采用类似的文字推理方式，可能更容易与其语言理解能力产生协同效应，从而提高整体推理质量。

另外，文字形式的推理具有更好的可监督性。在训练过程中，系统可以从高质量的文字推理样本中学习到更加精确的推理模式。而潜在空间的监督往往依赖于视觉特征的压缩和映射，这个过程容易丢失关键信息或引入噪声。

最重要的是，研究团队发现当前的多模态大语言模型已经具备了强大的文字推理能力，但在潜在空间推理方面还远未成熟。强行让系统在不擅长的空间中进行复杂推理，反而会限制其原有的优势。这就像是让一个优秀的作家去画画，结果可能不如让他用文字来描绘画面。

**八、研究的启示和影响**

这项研究对AI领域产生了深远的影响，它不仅揭示了当前技术的局限性，也为未来的发展指明了方向。最直接的启示是，我们不应该盲目追求技术的复杂性，有时候简单直接的方法可能更加有效。

对于AI研究者而言，这项工作提醒他们要更加严格地验证新方法的实际效果，而不是仅仅基于理论假设或表面现象就下结论。因果分析方法在这里发挥了关键作用，它帮助研究人员看穿了技术表象，发现了隐藏在深处的真实机制。

对于AI系统的开发者，这项研究建议他们在设计推理模块时，应该更多地考虑可解释性和可验证性。与其构建黑箱式的复杂系统，不如开发更加透明和可控的推理机制。文字推理的成功证明了透明化不仅不会损害性能，反而可能带来意想不到的提升。

从更广泛的角度来看，这项研究也对我们理解AI的工作机制提供了新的视角。它提醒我们，AI系统的表面行为未必反映其内在机制，我们需要更加深入和客观的分析工具来理解这些日益复杂的系统。

当然，这项研究也有其局限性。文字推理虽然在当前任务中表现出色，但在处理需要高精度视觉细节的任务时可能仍有不足。自然语言的表达能力虽然丰富，但在描述复杂的空间关系或精确的数值信息时仍有其固有限制。

说到底，这项研究最大的价值在于它提醒我们保持科学的严谨性和批判性思维。在AI技术快速发展的今天，我们既要保持对新技术的开放态度，也要有勇气质疑看似合理的假设。只有这样，我们才能真正推动技术的进步，而不是被表面的花哨所迷惑。

研究团队的工作为我们展示了一个重要的科学态度：真正的创新不在于创造最复杂的系统，而在于找到解决问题的最有效方法。有时候，回归简单和直观的方案，反而能够带来意想不到的突破。这个发现不仅对AI领域有重要意义，对其他科技领域也具有借鉴价值。

归根结底，这项研究告诉我们，AI的真正智能不在于它能生成多么神秘复杂的内部表示，而在于它能否真正理解和解决问题。当我们剥离了所有华丽的外表，回归到问题的本质时，往往会发现最朴素的方法可能就是最有效的方法。这或许就是科学研究最迷人的地方：在复杂的表象之下，总有简单而深刻的真理等待着我们去发现。

Q&A

Q1：什么是潜在视觉推理技术？

A：潜在视觉推理是让AI在其内部高维空间中进行"想象"的技术，就像人类解决问题时在脑海中构建画面一样。AI会生成一串特殊的数字信号（潜在令牌），研究人员认为这些信号承载着AI的视觉想象和推理过程。但最新研究发现，这些信号实际上并没有发挥真正的推理作用。

Q2：为什么文字想象比潜在空间想象更有效？

A：文字具有天然的结构化和可解释性，每个词语都承载明确的语义信息。而潜在空间中的数值向量虽然维度高，但编码的信息往往模糊难用。另外，文字推理更符合人类认知模式，能与AI的语言理解能力产生协同效应，从而提高整体推理质量。

Q3：这项研究对AI发展有什么启示？

A：研究提醒我们不应该盲目追求技术复杂性，简单直接的方法可能更有效。它建议AI开发者在设计系统时更多考虑可解释性和可验证性，构建透明可控的推理机制。同时也提醒研究者要严格验证新方法的实际效果，而不是仅基于理论假设就下结论。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

上一篇：微软研究院让AI智能体学会真正的探索：像侦探一样积累线索并内化经验的突破性框架
下一篇：人大多模态AI智能体的新突破：让机器拥有人类般的全方位感知和推理能力