通往AGI的新路线图正在浮现

朝阳

2026-06-05 07:02

引言：服务器里的AI，真的理解世界吗？

过去三年，大模型推动全球人工智能产业进入前所未有的繁荣期。从ChatGPT到多模态模型，再到具备推理能力的Agent系统，越来越多业内人士开始预测通用人工智能（AGI）将在未来数年内出现。

但在所有关于AGI的讨论背后，一个最根本的问题始终没有得到真正回答：

今天运行在数据中心里的AI，真的理解这个世界吗？

它们展现出的语言能力、推理能力和创造能力，究竟是在进行真正意义上的认知，还是仅仅在统计海量数据中的模式？

这一问题近期再次被推向学术前沿。

2026年5月，强化学习之父、图灵奖获得者Richard Sutton与研究者Banafsheh Rafiee共同发表论文《Toward Enactive Artificial Intelligence》，系统性反思当前主流AI发展路径，并提出一个大胆观点：

如果认知本质上是在行动中生成的，而不是在大脑中被动复制的，那么今天的大模型路线可能只是智能发展的中间阶段。

这篇论文并没有提供新的训练算法，却提出了一种可能影响未来十年AI发展的新范式——生成认知（Enactive Cognition）。

而这一思路，正在成为机器人、具身智能、世界模型以及下一代强化学习研究的重要理论基础。

从“表征世界”到“生成世界”

过去七十年的人工智能几乎都建立在一个共同假设之上：

智能来自于对世界建立准确的内部模型。

认知科学将这种思路称为：

表征主义（Representationalism）

在这一框架下：

外部世界 → 感知输入 → 内部表征 → 推理计算 → 行动输出

无论是传统符号AI、计算机视觉还是大语言模型，本质都遵循这一逻辑。

GPT通过学习数万亿Token建立语言世界模型；

图像模型通过数十亿图片学习视觉表征；

自动驾驶通过海量数据学习道路环境特征。

核心思想都是：

先理解，再行动。

然而生成认知理论认为，这一逻辑可能恰好是问题所在。

生成认知提出：

认知并不是对客观世界的复制，而是在行动过程中不断生成出来的。

世界并不存在等待智能体发现的固定意义。

意义来自行动。

一个物体之所以有意义，不是因为它被分类为“椅子”，而是因为它能够被坐、被搬、被踩、被移动。

认知来源于行动可能性（Affordance），而不是静态描述。

换句话说：

今天的大模型知道什么是椅子；

而人类知道能拿椅子做什么。

这两种认知可能并不相同。

生成认知的四大核心支柱

一、经验：世界本身才是最大的训练集

论文提出的第一原则是：

Experience（经验）

在生成认知框架下，经验不是数据集。

经验是智能体与环境持续互动的过程。

机器人学家Rodney Brooks曾提出一句著名观点：

世界本身就是它最好的模型。

生成认知认为：

真正重要的信息始终存在于环境之中，而非存储于参数之内。

这也是为什么Richard Sutton近年来不断强调：

未来AI将进入“Experience Era（经验时代）”，仅依靠人类数据训练的模式将逐渐触及天花板。

当前的大模型看过无数关于游泳的文字。

但从未真正下水。

它们知道杯子是什么。

却从未拿起、摔碎或清洗过一个杯子。

因此其知识仍然停留在间接经验层面。

二、行动与感知不可分割

生成认知第二个核心观点是：

Action-Perception Inseparability

行动与感知本质上是一体的。

传统AI认为：

先感知，再决策，再行动。

但生成认知认为：

感知本身就是行动。

例如视觉。

人类看到稳定的三维世界，并非因为眼睛像摄像机一样拍摄画面。

而是因为我们掌握了身体运动与视觉变化之间的规律。

转头时景物移动；

靠近时物体放大；

远离时物体缩小。

这些运动规律构成了视觉认知本身。

因此认知不是观察世界。

而是通过行动持续创造世界。

这也是为什么今天的视频生成模型虽然能够预测红绿灯变化，却无法真正理解交通系统。

因为它从未参与其中。

三、自主性：目标必须来自自身

第三个核心概念是：

Autonomy（自主性）

生成认知继承了生物学中的“自创生（Autopoiesis）”思想。

生命之所以具有目标，是因为它必须维持自身存在。

饥饿会驱动觅食；

危险会驱动逃生；

繁殖会驱动竞争。

这些目标不是外部给予的。

而是生命系统自身产生的。

当前AI则恰恰相反。

大模型回答问题的目标来自训练目标；

强化学习来自奖励函数；

自动驾驶来自工程师设定的指标。

目标全部来自外部。

因此它们缺乏真正意义上的自主性。

四、具身性：身体不是附件，而是认知本身

第四个支柱是：

Embodiment（具身性）

生成认知认为：

身体不是智能的执行器。

身体本身就是智能的一部分。

一个15厘米高的台阶：

成年人可以跨越；

婴儿无法跨越；

汽车无法跨越；

蚂蚁会将其视为山峰。

同一个世界。

不同身体看到的是完全不同的世界。

因此认知不是独立于身体存在的。

而是身体与环境共同塑造的结果。

而今天的大模型没有身体。

没有重力。

没有疼痛。

没有昼夜。

没有生存压力。

它们处理的是人类已经加工过的信息。

因此很难获得真正的第一手世界经验。

强化学习为何成为最重要的过渡路线

值得注意的是，Sutton并没有完全否定当前AI。

相反，他认为强化学习是目前最接近生成认知的技术路线。

原因很简单：

强化学习强调：

行动→反馈→学习

而不是：

数据→训练→输出

这种结构天然更接近生命系统。

但论文同时指出，目前强化学习仍存在三大缺陷：

第一，奖励函数来自外部；

第二，感知与行动仍然是分离模块；

第三，大多数实验发生在简化仿真环境中。

因此强化学习只是接近生成认知，而不是生成认知本身。

对AI创业者意味着什么？

如果这一理论方向成立，那么未来AI产业的价值链可能发生重大变化。

第一波红利已经属于大模型公司

过去几年最成功的创业公司都在做同一件事：

获取更多数据；

训练更大模型；

构建更强推理能力。

这一阶段的核心资产是：

GPU、数据和算法。

但未来五年，新的竞争焦点可能转向：

经验获取能力。

具身智能可能成为最大受益者

当前全球资本正在加速流向人形机器人。

原因不仅仅是劳动力替代。

更深层原因是：

机器人提供了AI获取真实经验的入口。

当机器人每天在真实世界完成数百万次交互时，

它获得的数据质量可能远超互联网文本。

未来最重要的数据源可能不是网页。

而是现实世界。

世界模型将成为下一代AI基础设施

过去的大模型主要学习语言规律。

未来模型需要学习：

物理规律；

空间规律；

因果规律；

社会互动规律。

这也是当前全球大量资金流向World Model（世界模型）赛道的重要原因。

资本押注的并非更大的聊天机器人。

而是能够持续与现实互动的智能体。

Agent将从“工作流自动化”升级为“数字生命体”

今天多数Agent本质上仍是工作流系统。

它们执行预设任务。

缺乏自主目标。

未来真正有价值的Agent可能具备：

持续记忆；

长期目标；

自主探索；

环境适应。

届时Agent产业将更接近生物系统，而非软件工具。

资本市场正在押注什么？

如果回顾过去十年AI发展，会发现一条清晰路线：

2012年——深度学习；

2017年——Transformer；

2022年——大模型；

2024年——Agent；

2025年至今——具身智能与世界模型。

每一次跃迁，本质都在让AI更加接近真实环境。

而Richard Sutton最新提出的生成认知框架，则为这一趋势提供了理论解释。

它所指向的未来是：

AI不再只是学习人类留下的数据痕迹。

而是像生命一样，通过行动不断创造新的认知。

结语：AGI或许不在服务器里诞生

过去几十年，AI产业一直试图在参数中复制世界。

而生成认知提出一个截然不同的答案：

真正的智能可能从来不是世界的复制品。

而是智能体与世界持续互动过程中涌现出来的结果。

这意味着AGI的终点，也许并不是一个拥有数百万亿参数的超级模型。

而是一个能够自主行动、持续学习、拥有身体并积累经验的智能体。

如果这一判断成立，那么未来十年的AI竞争将不再只是算力战争和参数战争。

而是一场关于经验、身体和现实世界入口的竞争。

对于创业者而言，这意味着新的机会正在出现。

对于整个AI产业而言，这或许预示着：

“训练模型”的时代正在走向成熟，而“创造认知”的时代才刚刚开始。

找项目

约会投资机构

关注

朝阳

股融易作者

文章 777 篇

浏览 1075770 次

通往AGI的新路线图正在浮现

相关资讯