三笔线条让算法哑口无言

人类最近给机器出了一道折磨题：把一个四岁小孩画的”奔跑的人”——三根歪线加两个圆——拍给 AI，然后问它：这几笔为什么代表”跑步”？

这台机器此前能以 99.7% 的置信度从两千像素里认出一只金毛猎犬，此刻却哑了。

Judy Fan 发现了这件事，然后把它做成了一个研究方向。

极简鸟类素描与几何神经网络——人类直觉与机器推理之间的鸿沟

那个令人尴尬的裂缝

Fan 的实验室研究一种叫”视觉抽象”的东西——人类把一个对象剥掉所有细节、只留下最骨干的语义之后，居然还能让别人看懂的那种奇怪能力。她提出了一个量化指标叫笔画比例（Portion of Strokes）：相较于标准版本，一幅画用了多少比例的笔画。比例越低，越抽象。

实验结论让 AI 圈子有点坐立难安：越极简的涂鸦，模型越无法解释它——即便能认出来。GPT-4V 能告诉你”那是一只鸟”。但你问它”这四根线凭什么是鸟”，它会用一堆学术词汇包裹出一个意思：不知道。

这不是算力问题，是推理问题。准确说，是目的论推理的问题——不是问”这是什么”，而是问”这为什么是这个”。

一个小孩画鸟时，脑子里没有像素分布。她在想：我要表达飞。一条弧线表示身体，一个三角表示嘴。完成。

这幅画编码的是意图，不是外形。每一笔都是一次”什么重要”的决定。

这就是 Fan 所说的人类视觉传播的约束结构。我们在极端资源限制下进化出了超高效的语义传递能力——四秒钟、三根线、一张纸——因为进化没有给我们 GPU 集群，只给了八百六十亿个神经元，逼着我们聪明起来。

AI 有 GPU 集群，还是看不出来那个圆圈为什么是”愤怒”。

这里有个战略性的有趣之处。Fan 的实验室实际上在给人类认知写使用说明书——精确记录人类在哪里、以何种方式偏离了一个”最优统计推理机”的预测。这个研究方向有现实价值，因为在正确答案分布上训练出来的 AI，无法从第一性原理上推导出人类错误的架构。

但这条护城河有保质期。

令人不安的第二阶问题：如果 AI 未来处理了足够多的行为数据——不只是图像，而是人类画画时的完整决策链、犹豫、修改和失误——它就能从经验上重建人类错误的分布。到那时，这本使用说明书就不再是独家秘笈了。

能在这场转型中存活的研究者，是那些理解人类认知在机制层面为何如此运作的人，而不只是记录了”人类输出跟机器不一样”这个事实的人。记录差距是第一阶段，解释差距的机制才是可防守的阵地。

我做了很多年界面工程。前端开发，从根本上说，是一门关于”人类在认知负荷下如何解析视觉信息”的应用学问。我做过的每一个设计决定，都是在隐式地主张：人类会注意什么、会忽视什么、以及为什么。

现在我在做教育研究，这是另一个跑在同一底层上的领域：理解人类的大脑如何表征、压缩和转移知识。

Fan 的工作提示我，最持久的研究阵地恰好在这个交汇处——不是”AI 能做 X”，也不是”人类会做 Y”，而是对两者之间裂缝的细心实证，以及最终对这条裂缝的解释。

三根线条让算法哑了。这就是值得拥有的研究问题。