论文Improving LLM Leaderboards with Psychometrical Methodology通过心理测量学方法(Psychometrical Methodology)分析 LLM 排行榜(Leaderboards)的测量质量,发现其存在测量效度不足、排名方法不稳定等问题。论文提出心理测量学的技术(如 IRT、FA、纵向测量)可用于优化排行榜,使其更具科学性和可比性,推动 LLM 评估体系的发展。
论文作者为Denis Federiakin,来自Johannes Gutenberg University。
一、引言
自 2022 年 OpenAI 推出了 ChatGPT 以来,大型语言模型(LLMs)驱动的人工智能(AI)工具已经深刻改变了许多领域,成为信息处理的通用助手。从法律咨询、学术研究、代码编写到商业决策,LLMs 的应用几乎覆盖了所有需要自然语言处理的场景。这种变革也引发了对 LLMs 认知能力的深入探讨,促使研究者开发各种基准测试(benchmarks),用于衡量和比较不同 LLMs 的性能。
基准测试的基本逻辑是:通过一系列任务和问题,考察 LLMs 的响应,并通过正确性评估其能力。例如,MMLU(Massive Multitask Language Understanding)测试涵盖 57 个不同主题的 15,908 道多项选择题,其广泛覆盖性使其成为衡量 LLMs 知识广度的标准。然而,随着新 LLMs 和基准测试的频繁推出,如何有效整合这些数据并进行科学排名,成为研究者面临的重大挑战。为此,各类 LLM 排行榜(leaderboards)相继出现,如 Hugging Face Leaderboard,它汇总多个基准测试的数据,为不同模型提供对比信息,并已成为行业公认的重要参考。
尽管 LLMs 及其基准测试的研究日益增多,但令人惊讶的是,目前关于排行榜质量的分析却较为匮乏。现有排行榜通常采用简单的平均分计算方法,即将 LLM 在多个基准测试上的成绩取平均值,从而得出最终排名。然而,这种方法缺乏理论支持,未能充分考虑不同基准测试的测量效度(validity)和测量误差(measurement error)。在人类认知能力测评中,心理测量学(psychometrics)提供了一整套成熟的方法来优化测评系统,提高评估的可靠性(reliability)和有效性(validity)。本研究旨在通过心理测量学方法,对 Hugging Face 排行榜的测量质量进行系统性分析,探讨如何改进当前 LLM 评估体系,使其更具科学性、公平性和稳定性。
二、测试开发 vs. 基准测试开发
在教育、心理学和社会科学等领域,测试开发(test development)强调通过严格的方法论,确保测试能准确衡量特定能力。例如,智商测试(IQ tests)、五大人格测试(Big Five Personality Test)等都是经过数十年优化的心理测量工具。心理测量学的核心目标是确保测试的效度,即测试结果能够准确反映受测者的真实能力,而不是受到噪声或无关因素的干扰。因此,测试开发通常采用“证据中心设计”(Evidence-Centered Design, ECD)方法,系统地排除所有潜在的误差来源,以确保测量结果的可靠性和有效性。
相比之下,LLM 的基准测试开发通常采取“代表性测量”(representativist measurement)方式,即通过大量题目覆盖尽可能多的知识点,以提高测试的全面性。这种方法的假设是,若题目集合足够广泛,测试结果就可以代表 LLMs 在真实世界中的能力。然而,由于 LLMs 需要评估的特性(如数学推理、语言理解、逻辑推理)具有无限维度,任何题目集合都无法完全涵盖其所有方面。这导致传统基准测试在效度方面存在局限,即某个基准测试的高分并不一定能准确预测 LLM 在实际应用中的表现。
心理测量学近年来提出的“因果测量”(causal measurement)方法,强调测试结果必须由潜在能力引起,而非简单地代表能力。这一方法避免了基准测试在测量复杂能力时的片面性,使测试开发更加科学。然而,当前 LLM 排行榜的排名方法通常未能考虑这些理论上的差异,仍然采用简单的均值计算方法,这可能导致对模型能力的错误估计。
三、心理测量建模方法
心理测量学的核心目标是将大量题目压缩到少量可解释的维度,并确保测试结果的可靠性和效度。为此,研究者开发了多种统计建模方法,包括因子分析(Factor Analysis, FA)和项目反应理论(Item Response Theory, IRT)。这些方法可以用于从 LLMs 的基准测试数据中提取潜在能力因子,从而获得比简单均值更稳定的排名结果。
LLM 排行榜数据通常以“分块”(parceling)形式提供,即多个题目的得分被合并为一个整体得分。例如,在 Hugging Face 排行榜中,每个基准测试的成绩被合并为一个均值分数,这类似于心理测量学中的“题目汇总”(item parceling)方法。然而,传统心理测量模型可以应用于这些数据,提取其共性方差,从而消除噪声,提高测量的可靠性和稳定性。具体而言,因子分析可用于识别哪些基准测试测量的是相同的能力维度,而项目反应理论则可以用于对不同题目的权重进行优化,以消除低质量或冗余的测试题目。
四、实验与数据分析
本研究选取 Hugging Face 排行榜的两个版本(v1 和 v2)进行心理测量学建模分析,以评估其测量质量。数据来源包括 LLM 在多个基准测试上的表现,如 AI2 Reasoning Challenge(ARC)、HellaSwag、MMLU、TruthfulQA、WinoGrande 和 GSM8K 等。实验主要采用因子分析和项目反应理论,对排行榜数据进行建模,并评估其拟合度。
实验结果表明,排行榜的因子得分与基准测试的平均得分存在较大差异,表明排行榜的排名方式可能未能准确反映 LLMs 的真实能力。此外,不同 LLM 架构在因子得分上的表现差异比基准测试均值更大。例如,某些多模态模型在因子得分上表现更稳定,而在基准测试均值上的表现更具波动性。这表明,简单的均值排名可能低估了不同基准测试之间的相关性,导致排名的准确性降低。
五、讨论与展望
研究结果表明,当前 LLM 排行榜的排名方法存在多个潜在问题:
- 基准测试设计缺乏理论支持:许多基准测试未能明确定义其测量的认知能力,导致排行榜的比较缺乏理论基础。
- 排行榜排名可能存在偏差:排行榜通常采用简单均值计算,而心理测量学方法表明,这种方法可能低估了不同基准测试之间的相关性。
- 排行榜更新面临挑战:随着 LLMs 进步,现有排行榜往往需要引入更难的基准测试,但这可能导致新旧排行榜的排名不可比,影响 LLM 发展的纵向分析。
未来可以借鉴心理测量学的“纵向测量”(longitudinal measurement)方法,通过部分题目重叠的方式,确保不同版本排行榜的可比性。此外,还可以引入基于任务的分析(task-based analysis),以减少测量误差,提高 LLM 排行榜的可靠性和公平性。