从“人类数据时代”到“经验时代”

近日，David Silver 与 Richard S. Sutton撰文Welcome to the Era of Experience。文章提出当前人工智能正处于一个历史性的转折点：从“人类数据时代”迈入“经验时代”，核心观点是未来的 AI 不再主要依赖于人类提供的数据，而是通过自主与环境交互所积累的经验来实现超人能力的演化。

一、人工智能从“人类数据时代”迈入瓶颈

文章指出，近年来 AI 尤其是大语言模型（LLMs）的快速发展，得益于大规模人类数据的训练和精调。这使得单个模型可以胜任写诗、解题、诊断、摘要等广泛任务。然而，这种模仿人类的方式有其天花板：

数学、编程、科学等高阶领域的问题已接近现有人类数据的边界。
高质量的数据资源正在耗尽，仅靠监督学习带来的提升正在减缓。
真正的新发现（如新的定理、科技或理论突破）无法通过已有数据学习到。

因此，作者认为仅依赖人类数据的模式无法持续推动 AI 实现通用或超人智能。

二、经验时代的开启：AI 自主生成和学习经验

作者强调，要进一步突破，AI 必须进入“经验时代”：

数据来源从静态的人类示例，转向动态的、由 AI 与环境互动所产生的数据。
AlphaProof 是重要案例：该模型先学习 10 万条人类构造的形式证明，再通过自身与定理验证系统交互生成上亿条新证明，从而在国际数学奥林匹克中达到了奖牌水平。
DeepSeek 的工作也表明，强化学习使得 AI 能够基于激励自发地发展复杂解题能力，而非人类明确示教。

三、经验时代的核心特征

作者指出，在经验时代中，AI 系统将具备以下四大新特性：

持续的经验流（Streams）：不再是短期交互，而是像人类一样在长期经验中不断学习与适应。例如健康助手可以根据几个月的数据动态调整建议，学习助手可跟踪语言学习进度。
丰富的感知与行动接口（Actions and Observations）：不仅通过文本对话，也通过与现实环境和数字系统交互。例如可以调用 API、控制机器人臂、远程操作天文望远镜等。
环境驱动的奖励信号（Grounded Rewards）：不再仅依赖人类预判的评分（如点赞、偏好选择），而是基于环境变化的实际反馈信号（如心率、睡眠时间、气候指标、产品销售等）调整策略。
以环境为基础的规划与推理（Planning and Reasoning）：不再模仿人类思维链条，而是从真实世界中推导、验证和更新模型。例如构建世界模型预测行为的后果，并用来规划行动路径。

四、经验时代的动因：为何是现在？

尽管强化学习（RL）早已存在并取得了象棋、围棋、游戏、物理操控等方面的成功，但这些成就主要局限于封闭模拟环境，奖励信号明确，任务边界清晰。

大语言模型的成功来自于人类数据驱动的通用性训练，但它们失去了 RL 所展现的“自我发现”能力。

现在，新的技术条件使得两者可以融合：

模型可以在现实中感知与行动。
奖励信号可以来自于多样且具体的环境反馈。
强化学习算法不断进化，可处理复杂的长时间规划问题。
Agent 可以通过真实交互自主积累知识、修正偏差、探索新策略。

因此，作者认为“经验时代”的转变已迫在眉睫。

五、重新审视强化学习的价值

文章指出，RL 社区早期发展出的很多关键理念被 LLM 热潮所忽视，但它们将在经验时代重新焕发生机：

时序差分学习（TD learning）：预测未来奖励。
探索机制（Curiosity/Optimism-based exploration）：避免局限于局部最优。
世界模型（World Models）：预测环境变化以辅助规划。
时间抽象（Temporal Abstraction）：学习跨时间层级的策略。

经验时代将催生：

更灵活的奖励函数建模。
基于不完整经验的价值函数估计方法。
针对真实世界的探索策略。
可学习的世界模型。
跨越长期目标的任务规划技术。

六、经验时代的机遇与风险

正面影响包括：

个性化 AI 助手将基于长期互动不断优化服务于健康、教育、职业等目标。
科学发现将加速，AI 能够设计并执行实验，从而催生新的材料、药物、技术。

潜在风险与挑战：

自动化会造成职业替代。
Agent 能力日益增强，带来控制与解释难题。
长时间自主交互降低了人类干预的机会，提高了安全门槛。

但作者也强调：

经验 Agent 能更好地适应变化环境，规避失效策略。
奖励函数可以逐步修正，实现动态对齐。
与现实交互的速度限制可在一定程度上抑制失控性。

七、结论

作者总结指出：

经验时代是 AI 发展的关键转折点，具有超越人类数据时代的潜力。
Agent 将不再依赖人类示例，而是通过与世界互动，自主学习和提升。
强化学习核心机制将在这一进程中被重新启用和升级。
最终，这种以经验为核心的学习机制将推动 AI 发展至真正超越人类的水平。

相关文章：

发表评论 取消回复

发表评论取消回复