浅谈ARC 测试（ARC-AGI）

下面按“它是什么—怎么考—为什么难—怎么做—怎么看分数/榜单—常见误区”的顺序，把大家常说的 ARC 测试（通常指 François Chollet 2019 提出的 Abstraction and Reasoning Corpus，也常被 ARC Prize 称为 ARC-AGI）系统讲清楚。

一、ARC 测试到底在测什么

ARC 的核心目标不是考“知识量”，而是尽量逼近人类的流体智力（fluid intelligence）：面对全新题目时，能否从极少量示例中归纳规则并迁移到新输入。ARC Prize 官方也明确把它定位为测“流体智力”而非“晶体智力（crystallized intelligence，积累知识）”。ARC Prize

Chollet 在《On the Measure of Intelligence》中把“智能”强调为一种技能习得效率：用越少经验/算力学会越多“新技能”，才更像智能本体。ARC 就是按这个理念设计出来的基准。arXiv

二、题目长什么样（ARC-AGI-1 经典形式）

1）题面结构

每道题是一个彩色网格（像像素画），给你 少量训练样例（输入网格 → 输出网格），然后给一个测试输入网格，你要输出对应的测试输出网格。

ARC-AGI-1 数据集总计 800 道任务，其中 400 训练 + 400 公共评测。ARC Prize+1

2）“解对”的判定非常严格

你必须把输出网格的尺寸和每个格子的颜色都做对，通常按“完全匹配（exact match）”计分。ARC 官方仓库也强调：第一次看到任务时，产出所有 test input 的正确输出才算“解出”。同时人类交互界面里遵循“每个 test input 最多 3 次尝试”的规则（界面不强制，但规则存在）。GitHub

三、ARC-AGI-1 / 2 / 3：版本在进化什么

1）ARC-AGI-1：静态题 + 少样本归纳

典型难点：对象分割、对称/平移/旋转、计数、填洞、规则组合、条件触发等
数据划分：训练 400、公共评测 400；另外 ARC Prize 引入了半私有/私有评测集（各 100）用于更可信的“隐藏测试”。ARC Prize

2）ARC-AGI-2：加入“效率”维度，强调“规模不够”

ARC Prize 把 ARC-AGI-2 定位为 2025 版，核心是：不但要解出来，还要以接近人类的成本/效率解出来。它公开说明“纯 LLM 得分 0%”，并把“每题成本（cost-per-task）”作为效率指标纳入榜单解释。ARC Prize+1

ARC-AGI-2 的数据结构也更“工程化”：

训练集 1000（公开、难度跨度大）
公共评测 120（公开、已校准）
半私有评测 120、私有评测 120（不公开、用于比赛/最终排名）
并且声明这些 eval 集经过人类实验校准，分数在不同 eval 集之间可比。ARC Prize

3）ARC-AGI-3：从静态题走向“交互式环境”

ARC Prize 2026 方向是 Interactive Reasoning Benchmarks：让 AI 像玩游戏一样“探索—规划—行动—记忆”，用多步交互来测学习效率；页面提到计划约 100 个环境，且仍强调“新环境、无指令、无语言/冷知识依赖”。ARC Prize

四、为什么 ARC 对机器这么难（但人觉得“还好”）

样本极少：通常只有 3 个左右训练样例就要归纳规则，靠暴力拟合很容易“解释过度”。ARC Prize
组合爆炸：网格变换的候选规则空间巨大（对象→关系→条件→组合），纯搜索成本非常高。
需要“核心先验”：很多题隐含人类很自然的视觉/物体先验（连通域=物体、边界、填充、对称、遮挡等），ARC 设计就是想把这种“接近人类天生先验”的部分固定下来，再看系统能否快速习得新规则。arXiv
ARC-AGI-2 进一步卡“效率”：即使能靠巨量搜索解出来，也不算“智能”，要在成本上接近人类。ARC Prize+1

五、主流解法路线（从“刷分技巧”到更像智能的做法）

你可以把 ARC 当成“视觉程序归纳 / 程序合成（program synthesis）”问题：从少量 I/O 示例推一个“程序”，再运行到 test input 得输出。

常见路线大概分几类：

A. 手工 DSL + 搜索（经典但易工程化）

先把网格转成“对象”（连通域、边框、背景、颜色集合）
设计一套 DSL 原语：提取对象、对齐、镜像、复制、填充、裁剪、计数、颜色映射…
用搜索（枚举/启发式/约束求解）找到能解释训练样例的程序，再用于测试

优点：可解释、在部分题上很强；缺点：DSL 设计本身等于“人类把大量智能写进系统”，而且容易对数据集过拟合。

B. 深度学习引导的程序合成 + 测试时适配（ARC Prize 2024 后成为主流）

ARC Prize 2024 技术报告总结：SOTA 在私有评测集上从 33% 提升到 55.5%，关键推动来自深度学习引导的程序合成与test-time training/适配等方法。arXiv

C. 更强的“推理系统”管线（2025 开始强调效率/成本）

ARC Prize 2025 的结果分析里，前排方案大量是“系统工程”：

1st 的 NVARC：合成数据驱动的 ensemble + 改进版 test-time trained 模型，在比赛约束下 ARC-AGI-2 约 24% ARC Prize
还有团队用 2D-aware masked-diffusion LLM、递归自我改进与打分器等组件组合 ARC Prize

这里的趋势很清晰：单一模型往往不够，大家做的是“会自我提案→自我验证→自我修正”的多阶段系统。

六、怎么看 ARC 分数/榜单才不被骗

必须区分：公开 eval vs 半私有/私有 eval
公开集容易被“看题调参”污染；ARC Prize 用半私有/私有集就是为了解决这个问题。ARC Prize+1
ARC-AGI-2 以后要同时看：准确率 + 成本/效率
ARC Prize 榜单明确把 cost-per-task 和性能一起可视化解释。ARC Prize
报告里如果没说清楚：算力预算、是否用外部数据、是否可能数据泄漏
那分数的可信度就要打折（尤其在“合成数据/预训练数据可能覆盖题型分布”的时代）。

七、常见误解澄清

“ARC 就是视觉找规律”：不止。很多题要做对象级抽象、条件选择、规则组合（ARC-AGI-2 页面还专门点名 symbolic interpretation / compositional reasoning / contextual rule application 等）。ARC Prize
“大模型越大越能解”：ARC-AGI-2 的设计动机之一就是想说明“单靠 scaling 不够”。ARC Prize
“ARC 已经被完全解决了”：ARC-AGI-1 的确在 2024 末出现明显突破（ARC Prize/部分前沿模型），但 ARC-AGI-2/3 正在把门槛推向“高适应性 + 高效率 + 交互学习”。ARC Prize+1