论文When large language models are reliable for judging empathic communication想回答一个很现实的问题:我们能不能让大语言模型当“裁判”,去评判一段对话里有没有“共情”、共情做得好不好?很多人已经在用“LLM-as-judge”做评测了,但共情这种东西本来就很主观,不同人看同一句话可能会给不同分数。作者的核心观点是:别急着把模型分数当真,先搞清楚——在什么条件下,模型的判断才算“可靠”。
他们做法很直接:挑了四套常见的共情评估框架/数据集,覆盖不同语境(比如聊天式安慰、心理支持式回复、以及他们自己做的一个“倾听同事职场困扰”的对话数据)。每套里抽取一定数量的对话片段,让三类“裁判”来打分:一类是领域专家(传播学/社会支持研究者),一类是众包标注者(普通人),另一类是大语言模型。然后他们不只看“模型对不对”,更看“大家彼此一致不一致”:专家之间能不能达成一致?模型和专家的一致性有多高?众包和专家是不是同一套标准?
结果有几个重要发现。第一,专家之间的一致性并不完美:有些维度专家也会分歧很大,这说明“共情评估”本身就存在难点,不能假装有唯一正确答案。第二,只要把评估框架讲清楚,并给模型少量高质量示例(few-shot),模型和专家的打分一致性可以做到接近甚至达到专家之间的水平。换句话说,在很多“可观察、定义清晰”的共情行为上,LLM当裁判是可用的。第三,众包标注往往比专家给更高的共情分,论文把它称为“共情通胀”:普通标注者更容易觉得“看起来挺友善”就是高共情,但这种宽松标准未必符合研究或临床意义上的共情定义。
作者还总结了一个很实用的规律:哪些维度更可靠?通常是那些有明显语言线索、容易“看得见”的行为,比如“有没有鼓励对方多说”“有没有提开放式问题”“有没有给出具体建议”等;哪些维度更不可靠?往往是需要猜测意图或内心状态的,比如“是否真正理解对方”“是否在淡化/否定情绪”“是否在做过度解释”等,这些就算专家也难一致,模型自然也更难稳定。
最后,论文给出实践建议:做这种评测时别只报F1这类简单对错指标,应该优先报告一致性指标(例如kappa、alpha),并先测专家一致性作为“任务难度”的参照;如果专家自己都很难达成一致,就应该先改进维度定义或标注规范,而不是指望模型给出“标准答案”。总体结论是:LLM可以在很多共情沟通维度上作为可靠评审,但前提是框架要清晰、示例要好,而且要承认共情评估存在合理分歧。