采用结合深度访谈和生成式人工智能的代理构建方法,模拟1,052名真实个体

论文Generative Agent Simulations of 1,000 People提出了一种基于生成式人工智能的代理架构,用于模拟1,052名真实个体的态度和行为。研究的目标是通过深度访谈和大语言模型(LLMs)的结合,构建能够跨越多种社会场景的通用人类行为模拟系统,从而为政策制定、社会科学研究以及复杂系统分析提供新工具。

论文作者为Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein,来自Stanford University, Northwestern University, University of Washington, Google DeepMind。

Generative Agent Simulations of 1,000 People

一、背景与动机

研究动机源于传统代理模型的局限性。传统方法(如基于规则的代理、博弈论模型或离散选择模型)虽然具有解释性,但通常只能模拟特定领域的行为,难以捕捉现实人类行为的复杂性。另一方面,生成式人工智能(如GPT-4等大语言模型)具有广泛的语言理解和生成能力,能够潜在地跨领域模拟人类行为。然而,基于人口统计或简单描述的生成代理往往过于概括,容易陷入刻板印象,无法真实反映个体的独特性。

为此,本文创新性地提出了一种结合深度访谈和生成式人工智能的代理构建方法。通过采集丰富的个体化访谈数据,研究者为每个代理创建了一个“记忆库”,使得代理能够基于深度理解个体的态度、信念和行为来进行决策。

二、研究设计与数据收集

1. 招募与访谈

研究团队从美国人口中按年龄、性别、种族、政治倾向等多维度分层抽样,招募了1,052名参与者,确保样本具有代表性。每位参与者接受了一次时长为两小时的深度访谈,由AI访谈员完成。访谈内容涵盖参与者的生活经历、社会观点以及个体行为,平均每个访谈生成6,491个词的文本。

AI访谈员基于半结构化脚本,能够动态调整问题以深入挖掘参与者的个性化信息。例如,针对“请讲述您的生活故事”这一开放性问题,AI访谈员可以根据回答追问更多细节,确保涵盖丰富的内容。

2. 调查与实验

访谈结束后,参与者完成了一系列调查与实验,包括:

  • 社会综合调查(GSS):评估参与者在社会、政治、宗教等领域的态度和观点。
  • 大五人格问卷(Big Five Inventory, BFI-44):测量参与者在开放性、责任感、外向性、宜人性和神经质五个维度的得分。
  • 经典经济学博弈:如独裁者博弈(Dictator Game)、信任博弈(Trust Game)、囚徒困境(Prisoner’s Dilemma)等,测试参与者在决策和社会互动中的行为。
  • 行为科学实验:选取了五个经典实验,例如对公平和意图的感知对行为的影响等。

为了评估生成代理的准确性,参与者在两周后重新完成了一次问卷和实验,以测量人类自身在时间间隔内的自一致性(self-consistency)。

三、生成代理的构建与评估

1. 生成代理的架构

生成代理通过大语言模型与一个“记忆流”(memory stream)结合构建而成。每个代理的记忆流包括:

  • 访谈文本:参与者访谈的完整记录。
  • 专家反思模块:模型根据访谈内容生成的高层次抽象反思,例如心理学家、行为经济学家、政治学家和人口统计学家的视角总结。这些反思捕捉了参与者的隐含特征,提升了代理预测的精度。

在预测时,生成代理从记忆流中检索相关信息,并结合实验的具体需求生成回答。例如,在预测GSS问题时,代理会先从记忆流中提取与该问题相关的访谈内容,再根据专家反思做出决策。

2. 评估方法

生成代理的表现通过以下几个维度进行评估:

  1. 个体预测准确性:衡量代理对个体调查问卷(如GSS、BFI-44)的回答是否与原参与者一致。为减少个体间的差异性影响,研究使用标准化准确率(normalized accuracy),即代理的预测准确率除以人类自一致性。
  2. 群体行为模拟:评估代理在群体层面的实验中能否准确再现人类的处理效果(treatment effects),如某干预措施对群体行为的影响。
  3. 偏差与公平性:通过测量不同群体(如种族、性别、政治立场)的预测表现差异,评估生成代理在减少偏差方面的能力。

四、实验结果与发现

1. 预测准确性

生成代理在GSS的预测中表现卓越,达到了0.85的标准化准确率(原始准确率为68.85%)。相比之下,基于人口统计信息的代理准确率为0.71,基于个性化描述的代理为0.70。在大五人格维度预测中,生成代理的标准化相关性为0.80,同样优于其他基线模型。

2. 访谈的贡献

通过对访谈内容的消融实验发现,即使随机删除80%的访谈内容,生成代理仍然能够保持较高的预测精度(0.79)。此外,使用提取的要点总结代替原始访谈内容的代理在GSS中的标准化准确率为0.83,显示出访谈中捕获的知识丰富度对代理性能的核心作用。

3. 偏差的减少

研究显示,基于访谈的生成代理在不同群体(如种族、性别、政治立场)的预测表现差异较小。例如,在GSS任务中,生成代理的性别偏差从基于人口统计的12.35%降低到7.85%,显示出访谈方法在减少刻板印象方面的优势。

4. 群体行为模拟

生成代理在五个经典行为科学实验中成功再现了四个实验的效果,与人类参与者的表现一致。生成代理的处理效应与人类效应的相关性达到了0.98,表明该系统能够准确模拟群体行为。

五、创新点与意义

  1. 个体化模拟:通过深度访谈和专家反思模块,生成代理实现了对个体行为和态度的精确模拟,显著优于传统模型。
  2. 减少偏差:访谈数据的使用有效降低了生成代理的群体间偏差,为公平AI提供了新思路。
  3. 跨领域验证:研究选取了多个领域的调查和实验,证明了生成代理在社会科学研究中的广泛适用性。
  4. 工具化应用:研究构建了一个“生成代理库”(Agent Bank),为学术研究提供了可重复使用的工具,同时通过隐私保护措施确保数据安全。

六、局限性与未来方向

  1. 数据范围:样本局限于美国,跨文化适用性尚待验证。
  2. 长文本处理:尽管代理在大规模访谈文本中表现良好,但模型的扩展性和实时性仍然需要进一步优化。
  3. 伦理与隐私:研究者需持续评估生成代理可能带来的隐私风险,确保模型的负责任使用。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注