适宜性（appropriateness）理论及其在生成式人工智能中的应用

论文A theory of appropriateness with applications to generative artificial intelligence（《适宜性理论及其在生成式人工智能中的应用》）由来自Google DeepMind等机构的多个领域专家共同撰写，旨在探讨适宜性（appropriateness）如何在社会中发挥作用，并讨论这一概念如何应用于生成式人工智能系统的设计和伦理问题。

论文作者为Joel Z. Leibo, Alexander Sasha Vezhnevets, Manfred Diaz, John P. Agapiou, William A. Cunningham, Peter Sunehag, Julia Haas, Raphael Koster, Edgar A. Duéñez-Guzmán, William S. Isaac, Georgios Piliouras, Stanley M. Bileschi, Iyad Rahwan, Simon Osindero，来自Google DeepMind, Mila – Québec AI Institute, University of Toronto, Max Planck Institute for Human Development。

一、引言

适宜性作为一种社会规范，影响着人类的行为决策，而在AI系统中，如何使其行为符合特定情境的适宜性标准是当今AI伦理和安全研究中的一个重要问题。该论文提出的核心观点是：适宜性不仅仅是一种行为标准，它还是一种帮助社会避免冲突、促进合作、实现集体繁荣的文化和社会机制。与传统的对齐（alignment）理论相比，适宜性理论更加关注社会内部的多样性和冲突的管理，而不是简单地追求目标一致性。生成式AI的设计应当考虑到如何在多元化的文化和社会背景中判断何为适宜，从而避免因规范失衡而引发社会不稳定。

二、适宜性的定义与属性

（一）适宜性的定义

适宜性是指在某一特定情境中，个体的行为、言语、穿着等是否符合社会或文化的规范和期望。它通过约束和指导个体的行为，确保个体在不同情境下做出符合社会预期的反应。论文指出，人类社会中每个人都会不断地在各种情境中进行适宜性判断，并据此调整行为。例如，我们在与朋友、家人和同事的交往中，会根据不同的社会角色和情境调整行为方式。这一过程并非单纯的自觉反思，而更多的是基于社会习惯和文化规范的自动性反应。

（二）适宜性的属性

适宜性具有五大核心属性，这些属性共同构成了适宜性在社会中如何发挥作用的机制：

情境依赖性：适宜性标准会根据不同的社会环境、文化背景和角色需求发生变化。例如，在正式场合上，穿着得体是适宜的，而在休闲聚会中，轻松的穿着则更为合适。
任意性：适宜性并不是一种固定不变的标准，而是根据特定的社会和文化背景进行定义。不同文化和不同历史时期的适宜性标准可能大相径庭。例如，某些行为在一个文化中可能被视为不适宜，而在另一个文化中却可能被视为完全正常。
自动性：人类在日常生活中，大多数时候并不需要刻意思考适宜性标准，而是通过习惯性行为自动地作出符合社会规范的反应。比如，当我们与他人交谈时，通常会自然地调整语气、话题和表达方式，以确保交谈符合对方的期望和情境的需求。
动态性：适宜性随着社会和文化环境的变化而不断演变。在不同历史时期、不同情境下，适宜性的标准可能会发生快速变化。例如，过去被认为是适宜的行为，如某些性别角色的划分，现在可能被视为过时或不适当。
可制裁性：不符合适宜性标准的行为通常会受到社会制裁。制裁可能是直接的，比如批评或惩罚；也可能是间接的，如社会排斥或名誉受损。社会通过这些制裁机制，维护社会秩序，确保个体行为符合群体期望。

三、人类适宜性的计算模型

论文提出了一个计算模型来解释人类如何根据不同情境进行适宜性判断，这一模型基于预测模式完成（predictive pattern completion）的概念，类似于现代深度学习模型中的自回归语言模型。

（一）预测模式完成的概念

预测模式完成是指大脑通过对过去经验的回忆，预测当前情境中适宜的行为或言语。在这一过程中，大脑并不需要刻意的推理或规划，而是快速地从已有的认知模式中找到最可能的“合适”反应。这一过程可以分为几个主要环节：

记忆系统：大脑存储了大量的历史经验和文化规范，这些信息作为行为判断的基础。
全局工作空间：大脑整合不同的信息，如当前的社会角色、文化背景、交际对象等，来判断在某一特定情境中什么行为是适宜的。
预测机制：大脑通过自回归模型预测当前情境下最适宜的行为。例如，在面对一个陌生人时，大脑可能自动判断应保持一定的距离，而在面对朋友时，则可能更倾向于亲近。

（二）情境中的行为调整

论文通过具体的例子展示了适宜性如何在不同的情境下调节行为。例如，当我们与不同社会角色的人交往时，如何根据角色差异调整语言和行为。在跨文化交流中，由于每种文化对适宜性的定义不同，人们常常需要根据对方的文化背景来调整自己的行为，以避免产生不必要的冲突。

四、生成式人工智能中的适宜性问题

在生成式人工智能系统中，适宜性问题尤为突出。AI必须能够理解并适应各种不同的社会规范和情境，以确保其行为符合用户的期望。

（一）适宜性对AI的要求

AI系统在不同的应用场景中必须能够做出适当的反应。例如，一个用于技术支持的聊天机器人不能使用讽刺的语气，而一个用于喜剧创作的AI则可以在适当的时机使用幽默和讽刺。论文强调，AI的设计应避免将一种单一的适宜性标准强加到所有场景中，而应根据不同的应用场景和文化背景定制适宜性标准。

（二）适宜性与对齐的对比

传统的对齐理论通常假设AI需要对人类目标进行“对齐”，即使得AI的行为完全符合人类设计者的期望。论文认为，这种目标导向的对齐框架忽视了社会中不可避免的多样性和冲突。相反，适宜性理论关注的是如何在不同的社会群体和个体之间实现合作，即使他们的核心价值观存在深刻分歧。AI应当能够在这一多样性中找到共存的空间，而不仅仅是追求一致性。

（三）技术实现路径

为了让生成式AI系统能够符合适宜性要求，论文提出了一些技术路径。一个关键的方向是通过用户反馈机制进行适宜性调整。例如，用户可以通过“制裁”（sanction）信号来影响AI的行为，使其更符合特定情境的适宜性要求。这一机制类似于人类社会中的反馈机制，通过社会评价（如点赞、批评）来调整个体行为。

五、适宜性理论的社会意义

适宜性不仅是个体行为的标准，它还是社会治理和集体繁荣的核心要素。适宜性规范通过规范行为、减少冲突、促进合作，确保社会的稳定性和创新性。

（一）集体繁荣

论文提出，适宜性有助于实现集体繁荣。适宜性行为通常鼓励个体在合作中抑制自己的短期利益，从而为社会提供了长期的稳定性。这种稳定性为社会的创新、进步和资源配置提供了条件。

（二）病理性适宜性

然而，适宜性并非总是促进社会繁荣，有时它可能导致不公平或有害的行为。例如，某些文化或历史时期的适宜性标准可能固守性别、种族等不平等的社会结构。历史上的一些不道德行为（如奴隶制）曾被认为是“适宜”的，但如今已经被认为是错误的。

六、结论

论文总结了适宜性理论在人类社会和生成式人工智能中的应用。它认为，适宜性不仅是人类行为的规范，也是社会稳定、合作和创新的基础。在AI系统的设计中，我们需要更加注重多样性和冲突管理，而不是单纯追求目标一致性。通过理解适宜性在社会中的功能和动态，我们可以设计出更安全、更人性化的AI系统，促进AI技术的负责任部署。