从“人类数据时代”到“经验时代”

近日,David Silver 与 Richard S. Sutton撰文Welcome to the Era of Experience。文章提出当前人工智能正处于一个历史性的转折点:从“人类数据时代”迈入“经验时代”,核心观点是未来的 AI 不再主要依赖于人类提供的数据,而是通过自主与环境交互所积累的经验来实现超人能力的演化。

一、人工智能从“人类数据时代”迈入瓶颈

文章指出,近年来 AI 尤其是大语言模型(LLMs)的快速发展,得益于大规模人类数据的训练和精调。这使得单个模型可以胜任写诗、解题、诊断、摘要等广泛任务。然而,这种模仿人类的方式有其天花板:

  • 数学、编程、科学等高阶领域的问题已接近现有人类数据的边界。
  • 高质量的数据资源正在耗尽,仅靠监督学习带来的提升正在减缓。
  • 真正的新发现(如新的定理、科技或理论突破)无法通过已有数据学习到。

因此,作者认为仅依赖人类数据的模式无法持续推动 AI 实现通用或超人智能。

二、经验时代的开启:AI 自主生成和学习经验

作者强调,要进一步突破,AI 必须进入“经验时代”:

  • 数据来源从静态的人类示例,转向动态的、由 AI 与环境互动所产生的数据。
  • AlphaProof 是重要案例:该模型先学习 10 万条人类构造的形式证明,再通过自身与定理验证系统交互生成上亿条新证明,从而在国际数学奥林匹克中达到了奖牌水平。
  • DeepSeek 的工作也表明,强化学习使得 AI 能够基于激励自发地发展复杂解题能力,而非人类明确示教。

三、经验时代的核心特征

作者指出,在经验时代中,AI 系统将具备以下四大新特性:

  1. 持续的经验流(Streams):不再是短期交互,而是像人类一样在长期经验中不断学习与适应。例如健康助手可以根据几个月的数据动态调整建议,学习助手可跟踪语言学习进度。
  2. 丰富的感知与行动接口(Actions and Observations):不仅通过文本对话,也通过与现实环境和数字系统交互。例如可以调用 API、控制机器人臂、远程操作天文望远镜等。
  3. 环境驱动的奖励信号(Grounded Rewards):不再仅依赖人类预判的评分(如点赞、偏好选择),而是基于环境变化的实际反馈信号(如心率、睡眠时间、气候指标、产品销售等)调整策略。
  4. 以环境为基础的规划与推理(Planning and Reasoning):不再模仿人类思维链条,而是从真实世界中推导、验证和更新模型。例如构建世界模型预测行为的后果,并用来规划行动路径。

四、经验时代的动因:为何是现在?

尽管强化学习(RL)早已存在并取得了象棋、围棋、游戏、物理操控等方面的成功,但这些成就主要局限于封闭模拟环境,奖励信号明确,任务边界清晰。

大语言模型的成功来自于人类数据驱动的通用性训练,但它们失去了 RL 所展现的“自我发现”能力。

现在,新的技术条件使得两者可以融合:

  • 模型可以在现实中感知与行动。
  • 奖励信号可以来自于多样且具体的环境反馈。
  • 强化学习算法不断进化,可处理复杂的长时间规划问题。
  • Agent 可以通过真实交互自主积累知识、修正偏差、探索新策略。

因此,作者认为“经验时代”的转变已迫在眉睫。

五、重新审视强化学习的价值

文章指出,RL 社区早期发展出的很多关键理念被 LLM 热潮所忽视,但它们将在经验时代重新焕发生机:

  • 时序差分学习(TD learning):预测未来奖励。
  • 探索机制(Curiosity/Optimism-based exploration):避免局限于局部最优。
  • 世界模型(World Models):预测环境变化以辅助规划。
  • 时间抽象(Temporal Abstraction):学习跨时间层级的策略。

经验时代将催生:

  • 更灵活的奖励函数建模。
  • 基于不完整经验的价值函数估计方法。
  • 针对真实世界的探索策略。
  • 可学习的世界模型。
  • 跨越长期目标的任务规划技术。

六、经验时代的机遇与风险

正面影响包括:

  • 个性化 AI 助手将基于长期互动不断优化服务于健康、教育、职业等目标。
  • 科学发现将加速,AI 能够设计并执行实验,从而催生新的材料、药物、技术。

潜在风险与挑战:

  • 自动化会造成职业替代。
  • Agent 能力日益增强,带来控制与解释难题。
  • 长时间自主交互降低了人类干预的机会,提高了安全门槛。

但作者也强调:

  • 经验 Agent 能更好地适应变化环境,规避失效策略。
  • 奖励函数可以逐步修正,实现动态对齐。
  • 与现实交互的速度限制可在一定程度上抑制失控性。

七、结论

作者总结指出:

  • 经验时代是 AI 发展的关键转折点,具有超越人类数据时代的潜力。
  • Agent 将不再依赖人类示例,而是通过与世界互动,自主学习和提升。
  • 强化学习核心机制将在这一进程中被重新启用和升级。
  • 最终,这种以经验为核心的学习机制将推动 AI 发展至真正超越人类的水平。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注