腾讯AI实验室：利用10亿个虚拟身份扩展合成数据创建

腾讯AI实验室近日发表论文《利用10亿个虚拟身份扩展合成数据创建》（Scaling Synthetic Data Creation with 1,000,000,000 Personas）。论文针对合成数据提出了很创新的思路和技术方法👍

Scaling Synthetic Data Creation with 1,000,000,000 Personas
腾讯AI实验室（Tencent AI Lab）

论文讨论了一种利用大型语言模型（LLM）进行合成数据创建的新方法。该方法通过从网络数据中整理出10亿个多样化的虚拟身份（Persona）集合，称为Persona Hub，来生成跨各种场景的合成数据。这些虚拟身份作为分布式的世界知识载体，促进了多样化合成数据的大规模创建。

一、论文内容关键点

Persona Hub:
- 一个包含10亿个虚拟身份的库，每个身份代表一个独特的视角。
- 这些虚拟身份来自公共网络文本，代表世界知识的压缩形式。
- 使用两种方法生成虚拟身份：文本到虚拟身份（Text-to-Persona）和虚拟身份到虚拟身份（Persona-to-Persona）。
文本到虚拟身份（Text-to-Persona）:
- 通过向LLM提示网络文本数据生成虚拟身份。
- 允许控制虚拟身份描述的粒度。
虚拟身份到虚拟身份（Persona-to-Persona）:
- 通过人际关系派生出新的虚拟身份，增强多样性。
- 使用六度分隔理论扩展虚拟身份关系。
去重:
- 使用MinHash和基于嵌入的去重方法确保多样性。
- 最终集合由超过10亿个独特的虚拟身份组成。
数据合成:
- 将虚拟身份集成到数据合成提示中，引导LLM创建合成数据。
- 展示了在创建数学问题、逻辑推理问题、指令、知识丰富的文本、游戏NPC和工具方面的多功能性。
使用案例:
- 数学问题：展示了创建多样且具有挑战性的数学问题。
- 逻辑推理：呈现了典型的逻辑推理问题和Ruozhiba风格的问题。
- 指令：模拟用户提示，增强LLM的指令跟随能力。
- 知识丰富的文本：通过虚拟身份驱动的提示生成信息丰富的内容。
- 游戏NPC：将真实世界的虚拟身份投射到游戏角色中，创建多样的NPC。
评估:
- 使用合成测试集评估生成数据的有效性。
- 微调模型在MATH和合成测试集上取得了令人印象深刻的准确性。