近日,David Silver 与 Richard S. Sutton撰文Welcome to the Era of Experience。文章提出当前人工智能正处于一个历史性的转折点:从“人类数据时代”迈入“经验时代”,核心观点是未来的 AI 不再主要依赖于人类提供的数据,而是通过自主与环境交互所积累的经验来实现超人能力的演化。
一、人工智能从“人类数据时代”迈入瓶颈
文章指出,近年来 AI 尤其是大语言模型(LLMs)的快速发展,得益于大规模人类数据的训练和精调。这使得单个模型可以胜任写诗、解题、诊断、摘要等广泛任务。然而,这种模仿人类的方式有其天花板:
- 数学、编程、科学等高阶领域的问题已接近现有人类数据的边界。
- 高质量的数据资源正在耗尽,仅靠监督学习带来的提升正在减缓。
- 真正的新发现(如新的定理、科技或理论突破)无法通过已有数据学习到。
因此,作者认为仅依赖人类数据的模式无法持续推动 AI 实现通用或超人智能。
二、经验时代的开启:AI 自主生成和学习经验
作者强调,要进一步突破,AI 必须进入“经验时代”:
- 数据来源从静态的人类示例,转向动态的、由 AI 与环境互动所产生的数据。
- AlphaProof 是重要案例:该模型先学习 10 万条人类构造的形式证明,再通过自身与定理验证系统交互生成上亿条新证明,从而在国际数学奥林匹克中达到了奖牌水平。
- DeepSeek 的工作也表明,强化学习使得 AI 能够基于激励自发地发展复杂解题能力,而非人类明确示教。
三、经验时代的核心特征
作者指出,在经验时代中,AI 系统将具备以下四大新特性:
- 持续的经验流(Streams):不再是短期交互,而是像人类一样在长期经验中不断学习与适应。例如健康助手可以根据几个月的数据动态调整建议,学习助手可跟踪语言学习进度。
- 丰富的感知与行动接口(Actions and Observations):不仅通过文本对话,也通过与现实环境和数字系统交互。例如可以调用 API、控制机器人臂、远程操作天文望远镜等。
- 环境驱动的奖励信号(Grounded Rewards):不再仅依赖人类预判的评分(如点赞、偏好选择),而是基于环境变化的实际反馈信号(如心率、睡眠时间、气候指标、产品销售等)调整策略。
- 以环境为基础的规划与推理(Planning and Reasoning):不再模仿人类思维链条,而是从真实世界中推导、验证和更新模型。例如构建世界模型预测行为的后果,并用来规划行动路径。
四、经验时代的动因:为何是现在?
尽管强化学习(RL)早已存在并取得了象棋、围棋、游戏、物理操控等方面的成功,但这些成就主要局限于封闭模拟环境,奖励信号明确,任务边界清晰。
大语言模型的成功来自于人类数据驱动的通用性训练,但它们失去了 RL 所展现的“自我发现”能力。
现在,新的技术条件使得两者可以融合:
- 模型可以在现实中感知与行动。
- 奖励信号可以来自于多样且具体的环境反馈。
- 强化学习算法不断进化,可处理复杂的长时间规划问题。
- Agent 可以通过真实交互自主积累知识、修正偏差、探索新策略。
因此,作者认为“经验时代”的转变已迫在眉睫。
五、重新审视强化学习的价值
文章指出,RL 社区早期发展出的很多关键理念被 LLM 热潮所忽视,但它们将在经验时代重新焕发生机:
- 时序差分学习(TD learning):预测未来奖励。
- 探索机制(Curiosity/Optimism-based exploration):避免局限于局部最优。
- 世界模型(World Models):预测环境变化以辅助规划。
- 时间抽象(Temporal Abstraction):学习跨时间层级的策略。
经验时代将催生:
- 更灵活的奖励函数建模。
- 基于不完整经验的价值函数估计方法。
- 针对真实世界的探索策略。
- 可学习的世界模型。
- 跨越长期目标的任务规划技术。
六、经验时代的机遇与风险
正面影响包括:
- 个性化 AI 助手将基于长期互动不断优化服务于健康、教育、职业等目标。
- 科学发现将加速,AI 能够设计并执行实验,从而催生新的材料、药物、技术。
潜在风险与挑战:
- 自动化会造成职业替代。
- Agent 能力日益增强,带来控制与解释难题。
- 长时间自主交互降低了人类干预的机会,提高了安全门槛。
但作者也强调:
- 经验 Agent 能更好地适应变化环境,规避失效策略。
- 奖励函数可以逐步修正,实现动态对齐。
- 与现实交互的速度限制可在一定程度上抑制失控性。
七、结论
作者总结指出:
- 经验时代是 AI 发展的关键转折点,具有超越人类数据时代的潜力。
- Agent 将不再依赖人类示例,而是通过与世界互动,自主学习和提升。
- 强化学习核心机制将在这一进程中被重新启用和升级。
- 最终,这种以经验为核心的学习机制将推动 AI 发展至真正超越人类的水平。