浅谈ARC 测试(ARG-AGI)

下面按“它是什么—怎么考—为什么难—怎么做—怎么看分数/榜单—常见误区”的顺序,把大家常说的 ARC 测试(通常指 François Chollet 2019 提出的 Abstraction and Reasoning Corpus,也常被 ARC Prize 称为 ARC-AGI)系统讲清楚。

一、ARC 测试到底在测什么

ARC 的核心目标不是考“知识量”,而是尽量逼近人类的流体智力(fluid intelligence):面对全新题目时,能否从极少量示例中归纳规则并迁移到新输入。ARC Prize 官方也明确把它定位为测“流体智力”而非“晶体智力(crystallized intelligence,积累知识)”。ARC Prize

Chollet 在《On the Measure of Intelligence》中把“智能”强调为一种技能习得效率:用越少经验/算力学会越多“新技能”,才更像智能本体。ARC 就是按这个理念设计出来的基准。arXiv

二、题目长什么样(ARC-AGI-1 经典形式)

1)题面结构

每道题是一个彩色网格(像像素画),给你 少量训练样例(输入网格 → 输出网格),然后给一个测试输入网格,你要输出对应的测试输出网格。

ARC-AGI-1 数据集总计 800 道任务,其中 400 训练 + 400 公共评测ARC Prize+1

2)“解对”的判定非常严格

你必须把输出网格的尺寸和每个格子的颜色都做对,通常按“完全匹配(exact match)”计分。ARC 官方仓库也强调:第一次看到任务时,产出所有 test input 的正确输出才算“解出”。同时人类交互界面里遵循“每个 test input 最多 3 次尝试”的规则(界面不强制,但规则存在)。GitHub

三、ARC-AGI-1 / 2 / 3:版本在进化什么

1)ARC-AGI-1:静态题 + 少样本归纳
  • 典型难点:对象分割、对称/平移/旋转、计数、填洞、规则组合、条件触发等
  • 数据划分:训练 400、公共评测 400;另外 ARC Prize 引入了半私有/私有评测集(各 100)用于更可信的“隐藏测试”。ARC Prize
2)ARC-AGI-2:加入“效率”维度,强调“规模不够”

ARC Prize 把 ARC-AGI-2 定位为 2025 版,核心是:不但要解出来,还要以接近人类的成本/效率解出来。它公开说明“纯 LLM 得分 0%”,并把“每题成本(cost-per-task)”作为效率指标纳入榜单解释。ARC Prize+1

ARC-AGI-2 的数据结构也更“工程化”:

  • 训练集 1000(公开、难度跨度大)
  • 公共评测 120(公开、已校准)
  • 半私有评测 120、私有评测 120(不公开、用于比赛/最终排名)
    并且声明这些 eval 集经过人类实验校准,分数在不同 eval 集之间可比ARC Prize
3)ARC-AGI-3:从静态题走向“交互式环境”

ARC Prize 2026 方向是 Interactive Reasoning Benchmarks:让 AI 像玩游戏一样“探索—规划—行动—记忆”,用多步交互来测学习效率;页面提到计划约 100 个环境,且仍强调“新环境、无指令、无语言/冷知识依赖”。ARC Prize

四、为什么 ARC 对机器这么难(但人觉得“还好”)

  1. 样本极少:通常只有 3 个左右训练样例就要归纳规则,靠暴力拟合很容易“解释过度”。ARC Prize
  2. 组合爆炸:网格变换的候选规则空间巨大(对象→关系→条件→组合),纯搜索成本非常高。
  3. 需要“核心先验”:很多题隐含人类很自然的视觉/物体先验(连通域=物体、边界、填充、对称、遮挡等),ARC 设计就是想把这种“接近人类天生先验”的部分固定下来,再看系统能否快速习得新规则。arXiv
  4. ARC-AGI-2 进一步卡“效率”:即使能靠巨量搜索解出来,也不算“智能”,要在成本上接近人类。ARC Prize+1

五、主流解法路线(从“刷分技巧”到更像智能的做法)

你可以把 ARC 当成“视觉程序归纳 / 程序合成(program synthesis)”问题:从少量 I/O 示例推一个“程序”,再运行到 test input 得输出。

常见路线大概分几类:

A. 手工 DSL + 搜索(经典但易工程化)
  • 先把网格转成“对象”(连通域、边框、背景、颜色集合)
  • 设计一套 DSL 原语:提取对象、对齐、镜像、复制、填充、裁剪、计数、颜色映射…
  • 用搜索(枚举/启发式/约束求解)找到能解释训练样例的程序,再用于测试

优点:可解释、在部分题上很强;缺点:DSL 设计本身等于“人类把大量智能写进系统”,而且容易对数据集过拟合。

B. 深度学习引导的程序合成 + 测试时适配(ARC Prize 2024 后成为主流)

ARC Prize 2024 技术报告总结:SOTA 在私有评测集上从 33% 提升到 55.5%,关键推动来自深度学习引导的程序合成test-time training/适配等方法。arXiv

C. 更强的“推理系统”管线(2025 开始强调效率/成本)

ARC Prize 2025 的结果分析里,前排方案大量是“系统工程”:

  • 1st 的 NVARC:合成数据驱动的 ensemble + 改进版 test-time trained 模型,在比赛约束下 ARC-AGI-2 约 24% ARC Prize
  • 还有团队用 2D-aware masked-diffusion LLM、递归自我改进与打分器等组件组合 ARC Prize

这里的趋势很清晰:单一模型往往不够,大家做的是“会自我提案→自我验证→自我修正”的多阶段系统。

六、怎么看 ARC 分数/榜单才不被骗

  1. 必须区分:公开 eval vs 半私有/私有 eval
    公开集容易被“看题调参”污染;ARC Prize 用半私有/私有集就是为了解决这个问题。ARC Prize+1
  2. ARC-AGI-2 以后要同时看:准确率 + 成本/效率
    ARC Prize 榜单明确把 cost-per-task 和性能一起可视化解释。ARC Prize
  3. 报告里如果没说清楚:算力预算、是否用外部数据、是否可能数据泄漏
    那分数的可信度就要打折(尤其在“合成数据/预训练数据可能覆盖题型分布”的时代)。

七、常见误解澄清

  • “ARC 就是视觉找规律”:不止。很多题要做对象级抽象、条件选择、规则组合(ARC-AGI-2 页面还专门点名 symbolic interpretation / compositional reasoning / contextual rule application 等)。ARC Prize
  • “大模型越大越能解”:ARC-AGI-2 的设计动机之一就是想说明“单靠 scaling 不够”。ARC Prize
  • “ARC 已经被完全解决了”:ARC-AGI-1 的确在 2024 末出现明显突破(ARC Prize/部分前沿模型),但 ARC-AGI-2/3 正在把门槛推向“高适应性 + 高效率 + 交互学习”。ARC Prize+1

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注