腾讯AI实验室近日发表论文《利用10亿个虚拟身份扩展合成数据创建》(Scaling Synthetic Data Creation with 1,000,000,000 Personas)。论文针对合成数据提出了很创新的思路和技术方法👍
论文讨论了一种利用大型语言模型(LLM)进行合成数据创建的新方法。该方法通过从网络数据中整理出10亿个多样化的虚拟身份(Persona)集合,称为Persona Hub,来生成跨各种场景的合成数据。这些虚拟身份作为分布式的世界知识载体,促进了多样化合成数据的大规模创建。
一、论文内容关键点
- Persona Hub:
- 一个包含10亿个虚拟身份的库,每个身份代表一个独特的视角。
- 这些虚拟身份来自公共网络文本,代表世界知识的压缩形式。
- 使用两种方法生成虚拟身份:文本到虚拟身份(Text-to-Persona)和虚拟身份到虚拟身份(Persona-to-Persona)。
- 文本到虚拟身份(Text-to-Persona):
- 通过向LLM提示网络文本数据生成虚拟身份。
- 允许控制虚拟身份描述的粒度。
- 虚拟身份到虚拟身份(Persona-to-Persona):
- 通过人际关系派生出新的虚拟身份,增强多样性。
- 使用六度分隔理论扩展虚拟身份关系。
- 去重:
- 使用MinHash和基于嵌入的去重方法确保多样性。
- 最终集合由超过10亿个独特的虚拟身份组成。
- 数据合成:
- 将虚拟身份集成到数据合成提示中,引导LLM创建合成数据。
- 展示了在创建数学问题、逻辑推理问题、指令、知识丰富的文本、游戏NPC和工具方面的多功能性。
- 使用案例:
- 数学问题:展示了创建多样且具有挑战性的数学问题。
- 逻辑推理:呈现了典型的逻辑推理问题和Ruozhiba风格的问题。
- 指令:模拟用户提示,增强LLM的指令跟随能力。
- 知识丰富的文本:通过虚拟身份驱动的提示生成信息丰富的内容。
- 游戏NPC:将真实世界的虚拟身份投射到游戏角色中,创建多样的NPC。
- 评估:
- 使用合成测试集评估生成数据的有效性。
- 微调模型在MATH和合成测试集上取得了令人印象深刻的准确性。
二、结论
虚拟身份驱动的数据合成方法在大规模生成多样且高质量的合成数据方面展示了显著潜力。Persona Hub的多功能性和可扩展性可以推动LLM研究和开发的进步,有可能在合成数据创建领域带来范式转变。
该方法利用虚拟身份引导LLM创建合成数据。通过将虚拟身份嵌入数据合成提示中,LLM可以生成反映这些虚拟身份中包含的知识和视角的数据。
三、潜在影响
虚拟身份驱动的数据合成方法为生成多样化的合成数据提供了可扩展的解决方案。这可以显著增强LLM的训练、指令调整和在各领域的应用。然而,需要解决伦理问题和潜在的滥用,以确保负责任的应用。
P.S., 虚拟身份集合(Persona Hub):https://github.com/tencent-ailab/persona-hub