Nature刊文The AI revolution is running out of data. What can researchers do?(《人工智能革命正在耗尽数据资源——研究人员该怎么办?》),探讨了人工智能(AI)领域面临的数据瓶颈问题,并提出了潜在的解决方案。文章作者为Nicola Jones。
一、背景:人工智能的崛起与数据驱动的局限
- AI发展的数据需求:
- LLMs(如ChatGPT)通过更大规模的神经网络和更丰富的数据集实现了巨大的能力提升。
- 扩展数据集的核心作用:提升语言模型的生成能力,同时开发出“涌现能力”,如逻辑推理、复杂语言翻译等。
- 数据驱动的发展模式:这种“规模即力量”的模式,过去十年被证明是高效的。
- 数据消耗的规模化特征:
- 文章引用了Epoch AI研究的数据:
- 当前主流LLMs的训练使用了数十万亿的词元(tokens)。
- 全球互联网文本数据的总量估计为3100万亿词元。
- 每年的数据增长率(<10%)远低于AI模型训练数据集规模的增长率(>100%)。
- 文章引用了Epoch AI研究的数据:
- 即将到来的数据瓶颈:
- 按照预测,到2028年,数据资源的供给将接近枯竭,模型所需的数据集将等同于互联网的全部文本数据。
- 随着数据供给逐渐受限,训练AI的难度和成本将显著上升。
二、面临的核心挑战:技术、法律与伦理三重困境
- 技术挑战:资源有限与模型扩展的矛盾:
- 数据获取的技术瓶颈:
- 高质量数据占互联网文本数据的比例较低,例如经过编辑的新闻、书籍内容等。
- 大量数据因重复、低质量或敏感内容(如成人内容)而被排除。
- 数据增长速度的限制:当前互联网数据增长速率过慢,无法满足AI发展的需求。
- 数据获取的技术瓶颈:
- 法律限制:数据的所有权与公平使用之争:
- 数据版权问题显现:
- 例如,《纽约时报》和其他新闻机构起诉OpenAI和微软,指控其未经许可使用内容。
- 公平使用原则的争议:AI公司认为“学习”互联网内容与人类阅读无异,而内容提供者则要求赔偿。
- 数据版权问题显现:
- 伦理问题:隐私与数据获取的平衡:
- 未经许可使用私人数据(如社交媒体内容)可能引发隐私争议。
- 数据爬取行为被更多的网站禁止,进一步削弱了数据的可用性。
三、应对策略:多层次解决方案探索
- 开拓新数据来源:
- 非公开数据:
- 公司专有数据:Meta利用其VR设备生成的音频和图像;社交媒体内部数据(如YouTube字幕)。
- 社会化资源:健康、教育和环境领域的未被充分利用的数据。
- 领域特定数据:
- 快速增长的天文学、基因组学数据可能成为训练模型的新资源。
- 挑战:这些数据能否广泛应用于LLMs仍不明确,且需要克服隐私和版权限制。
- 非公开数据:
- 合成数据生成:
- AI生成数据:
- OpenAI每天生成1000亿单词,用以训练和扩展模型。
- 特点:在数学、编程等规则清晰领域,合成数据表现优秀。
- 潜在问题:
- “模型自噬障碍”(Model Autophagy Disorder):合成数据中潜在错误可能被放大,导致训练结果劣化。
- 实例:面部生成模型训练中出现的奇怪哈希标记。
- AI生成数据:
- 优化现有数据的使用:
- 重复数据学习:
- 研究表明,重复多次使用同一数据集,可以达到类似于增加数据规模的效果。
- 例如,Stanford团队发现,多次重读数据集(4次)可以获得与新增数据相当的效果。
- 专注于小模型:
- 开发任务导向的小型模型,提升算法和数据的效率。
- 重复数据学习:
- 跨模态学习:
- 结合图像、视频等多模态数据,扩展LLMs的训练范围。
- Yann LeCun的观点:通过视觉和感知数据(如机器人与环境交互产生的感知数据),AI可能达到人类学习的多样化水平。
四、未来发展趋势与争议
- 从规模到效率的转变:
- 在计算硬件改进(如AI芯片)的推动下,AI逐渐转向以更少资源获取更高性能。
- LLMs逐渐从“训练海量数据”模式转向强化学习、推理和自反思等更高效的方法。
- 法律与数据开放的平衡:
- 未来的法律裁定将影响数据访问的可行性和成本。
- 推动开放数据计划,确保学术研究者和非营利组织仍然可以获取所需数据。
- 合成数据的广泛应用:
- 尽管合成数据面临一定质量问题,但在隐私敏感领域(如医学)已展现出巨大潜力。
- 自生成数据可能成为AI训练数据的重要补充。
- 技术发展的伦理考量:
- 数据来源的合法性和使用方式的透明化,是技术与社会共同发展的关键。
- 需要进一步平衡数据提供者、开发者和社会公众的利益。
五、启示
以下是几点启示:
- 技术路径转型:
- AI研究需要从“更大”转向“更智能”,通过更高效的算法和多模态学习减少对海量数据的依赖。
- 开放数据的重要性:
- 数据的开放与共享是促进学术和公益研究的重要支柱。
- 法律框架的建立:
- 制定合理的数据使用法律框架,既保护内容提供者权益,又确保技术进步。
- 面向未来的数据探索:
- 跨领域数据(如医疗、教育)和合成数据的广泛使用,将为AI发展提供持续动力。