通往AGI的新路线图正在浮现
引言:服务器里的AI,真的理解世界吗?
过去三年,大模型推动全球人工智能产业进入前所未有的繁荣期。从ChatGPT到多模态模型,再到具备推理能力的Agent系统,越来越多业内人士开始预测通用人工智能(AGI)将在未来数年内出现。
但在所有关于AGI的讨论背后,一个最根本的问题始终没有得到真正回答:
今天运行在数据中心里的AI,真的理解这个世界吗?
它们展现出的语言能力、推理能力和创造能力,究竟是在进行真正意义上的认知,还是仅仅在统计海量数据中的模式?
这一问题近期再次被推向学术前沿。
2026年5月,强化学习之父、图灵奖获得者Richard Sutton与研究者Banafsheh Rafiee共同发表论文《Toward Enactive Artificial Intelligence》,系统性反思当前主流AI发展路径,并提出一个大胆观点:
如果认知本质上是在行动中生成的,而不是在大脑中被动复制的,那么今天的大模型路线可能只是智能发展的中间阶段。
这篇论文并没有提供新的训练算法,却提出了一种可能影响未来十年AI发展的新范式——生成认知(Enactive Cognition)。
而这一思路,正在成为机器人、具身智能、世界模型以及下一代强化学习研究的重要理论基础。
从“表征世界”到“生成世界”
过去七十年的人工智能几乎都建立在一个共同假设之上:
智能来自于对世界建立准确的内部模型。
认知科学将这种思路称为:
表征主义(Representationalism)
在这一框架下:
外部世界 → 感知输入 → 内部表征 → 推理计算 → 行动输出
无论是传统符号AI、计算机视觉还是大语言模型,本质都遵循这一逻辑。
GPT通过学习数万亿Token建立语言世界模型;
图像模型通过数十亿图片学习视觉表征;
自动驾驶通过海量数据学习道路环境特征。
核心思想都是:
先理解,再行动。
然而生成认知理论认为,这一逻辑可能恰好是问题所在。
生成认知提出:
认知并不是对客观世界的复制,而是在行动过程中不断生成出来的。
世界并不存在等待智能体发现的固定意义。
意义来自行动。
一个物体之所以有意义,不是因为它被分类为“椅子”,而是因为它能够被坐、被搬、被踩、被移动。
认知来源于行动可能性(Affordance),而不是静态描述。
换句话说:
今天的大模型知道什么是椅子;
而人类知道能拿椅子做什么。
这两种认知可能并不相同。
生成认知的四大核心支柱
一、经验:世界本身才是最大的训练集
论文提出的第一原则是:
Experience(经验)
在生成认知框架下,经验不是数据集。
经验是智能体与环境持续互动的过程。
机器人学家Rodney Brooks曾提出一句著名观点:
世界本身就是它最好的模型。
生成认知认为:
真正重要的信息始终存在于环境之中,而非存储于参数之内。
这也是为什么Richard Sutton近年来不断强调:
未来AI将进入“Experience Era(经验时代)”,仅依靠人类数据训练的模式将逐渐触及天花板。
当前的大模型看过无数关于游泳的文字。
但从未真正下水。
它们知道杯子是什么。
却从未拿起、摔碎或清洗过一个杯子。
因此其知识仍然停留在间接经验层面。
二、行动与感知不可分割
生成认知第二个核心观点是:
Action-Perception Inseparability
行动与感知本质上是一体的。
传统AI认为:
先感知,再决策,再行动。
但生成认知认为:
感知本身就是行动。
例如视觉。
人类看到稳定的三维世界,并非因为眼睛像摄像机一样拍摄画面。
而是因为我们掌握了身体运动与视觉变化之间的规律。
转头时景物移动;
靠近时物体放大;
远离时物体缩小。
这些运动规律构成了视觉认知本身。
因此认知不是观察世界。
而是通过行动持续创造世界。
这也是为什么今天的视频生成模型虽然能够预测红绿灯变化,却无法真正理解交通系统。
因为它从未参与其中。
三、自主性:目标必须来自自身
第三个核心概念是:
Autonomy(自主性)
生成认知继承了生物学中的“自创生(Autopoiesis)”思想。
生命之所以具有目标,是因为它必须维持自身存在。
饥饿会驱动觅食;
危险会驱动逃生;
繁殖会驱动竞争。
这些目标不是外部给予的。
而是生命系统自身产生的。
当前AI则恰恰相反。
大模型回答问题的目标来自训练目标;
强化学习来自奖励函数;
自动驾驶来自工程师设定的指标。
目标全部来自外部。
因此它们缺乏真正意义上的自主性。
四、具身性:身体不是附件,而是认知本身
第四个支柱是:
Embodiment(具身性)
生成认知认为:
身体不是智能的执行器。
身体本身就是智能的一部分。
一个15厘米高的台阶:
成年人可以跨越;
婴儿无法跨越;
汽车无法跨越;
蚂蚁会将其视为山峰。
同一个世界。
不同身体看到的是完全不同的世界。
因此认知不是独立于身体存在的。
而是身体与环境共同塑造的结果。
而今天的大模型没有身体。
没有重力。
没有疼痛。
没有昼夜。
没有生存压力。
它们处理的是人类已经加工过的信息。
因此很难获得真正的第一手世界经验。
强化学习为何成为最重要的过渡路线
值得注意的是,Sutton并没有完全否定当前AI。
相反,他认为强化学习是目前最接近生成认知的技术路线。
原因很简单:
强化学习强调:
行动→反馈→学习
而不是:
数据→训练→输出
这种结构天然更接近生命系统。
但论文同时指出,目前强化学习仍存在三大缺陷:
第一,奖励函数来自外部;
第二,感知与行动仍然是分离模块;
第三,大多数实验发生在简化仿真环境中。
因此强化学习只是接近生成认知,而不是生成认知本身。
对AI创业者意味着什么?
如果这一理论方向成立,那么未来AI产业的价值链可能发生重大变化。
第一波红利已经属于大模型公司
过去几年最成功的创业公司都在做同一件事:
获取更多数据;
训练更大模型;
构建更强推理能力。
这一阶段的核心资产是:
GPU、数据和算法。
但未来五年,新的竞争焦点可能转向:
经验获取能力。
具身智能可能成为最大受益者
当前全球资本正在加速流向人形机器人。
原因不仅仅是劳动力替代。
更深层原因是:
机器人提供了AI获取真实经验的入口。
当机器人每天在真实世界完成数百万次交互时,
它获得的数据质量可能远超互联网文本。
未来最重要的数据源可能不是网页。
而是现实世界。
世界模型将成为下一代AI基础设施
过去的大模型主要学习语言规律。
未来模型需要学习:
物理规律;
空间规律;
因果规律;
社会互动规律。
这也是当前全球大量资金流向World Model(世界模型)赛道的重要原因。
资本押注的并非更大的聊天机器人。
而是能够持续与现实互动的智能体。
Agent将从“工作流自动化”升级为“数字生命体”
今天多数Agent本质上仍是工作流系统。
它们执行预设任务。
缺乏自主目标。
未来真正有价值的Agent可能具备:
持续记忆;
长期目标;
自主探索;
环境适应。
届时Agent产业将更接近生物系统,而非软件工具。
资本市场正在押注什么?
如果回顾过去十年AI发展,会发现一条清晰路线:
2012年——深度学习;
2017年——Transformer;
2022年——大模型;
2024年——Agent;
2025年至今——具身智能与世界模型。
每一次跃迁,本质都在让AI更加接近真实环境。
而Richard Sutton最新提出的生成认知框架,则为这一趋势提供了理论解释。
它所指向的未来是:
AI不再只是学习人类留下的数据痕迹。
而是像生命一样,通过行动不断创造新的认知。
结语:AGI或许不在服务器里诞生
过去几十年,AI产业一直试图在参数中复制世界。
而生成认知提出一个截然不同的答案:
真正的智能可能从来不是世界的复制品。
而是智能体与世界持续互动过程中涌现出来的结果。
这意味着AGI的终点,也许并不是一个拥有数百万亿参数的超级模型。
而是一个能够自主行动、持续学习、拥有身体并积累经验的智能体。
如果这一判断成立,那么未来十年的AI竞争将不再只是算力战争和参数战争。
而是一场关于经验、身体和现实世界入口的竞争。
对于创业者而言,这意味着新的机会正在出现。
对于整个AI产业而言,这或许预示着:
“训练模型”的时代正在走向成熟,而“创造认知”的时代才刚刚开始。
相关资讯
更多 »




