数据资源“枯竭”速度远比石油快~

Nature刊文The AI revolution is running out of data. What can researchers do?(《人工智能革命正在耗尽数据资源——研究人员该怎么办?》),探讨了人工智能(AI)领域面临的数据瓶颈问题,并提出了潜在的解决方案。文章作者为Nicola Jones。

一、背景:人工智能的崛起与数据驱动的局限

  1. AI发展的数据需求
    • LLMs(如ChatGPT)通过更大规模的神经网络和更丰富的数据集实现了巨大的能力提升。
    • 扩展数据集的核心作用:提升语言模型的生成能力,同时开发出“涌现能力”,如逻辑推理、复杂语言翻译等。
    • 数据驱动的发展模式:这种“规模即力量”的模式,过去十年被证明是高效的。
  2. 数据消耗的规模化特征
    • 文章引用了Epoch AI研究的数据:
      • 当前主流LLMs的训练使用了数十万亿的词元(tokens)。
      • 全球互联网文本数据的总量估计为3100万亿词元。
    • 每年的数据增长率(<10%)远低于AI模型训练数据集规模的增长率(>100%)。
  3. 即将到来的数据瓶颈
    • 按照预测,到2028年,数据资源的供给将接近枯竭,模型所需的数据集将等同于互联网的全部文本数据。
    • 随着数据供给逐渐受限,训练AI的难度和成本将显著上升。
Created by Midjourney

二、面临的核心挑战:技术、法律与伦理三重困境

  1. 技术挑战:资源有限与模型扩展的矛盾
    • 数据获取的技术瓶颈:
      • 高质量数据占互联网文本数据的比例较低,例如经过编辑的新闻、书籍内容等。
      • 大量数据因重复、低质量或敏感内容(如成人内容)而被排除。
    • 数据增长速度的限制:当前互联网数据增长速率过慢,无法满足AI发展的需求。
  2. 法律限制:数据的所有权与公平使用之争
    • 数据版权问题显现:
      • 例如,《纽约时报》和其他新闻机构起诉OpenAI和微软,指控其未经许可使用内容。
    • 公平使用原则的争议:AI公司认为“学习”互联网内容与人类阅读无异,而内容提供者则要求赔偿。
  3. 伦理问题:隐私与数据获取的平衡
    • 未经许可使用私人数据(如社交媒体内容)可能引发隐私争议。
    • 数据爬取行为被更多的网站禁止,进一步削弱了数据的可用性。

三、应对策略:多层次解决方案探索

  1. 开拓新数据来源
    • 非公开数据
      • 公司专有数据:Meta利用其VR设备生成的音频和图像;社交媒体内部数据(如YouTube字幕)。
      • 社会化资源:健康、教育和环境领域的未被充分利用的数据。
    • 领域特定数据
      • 快速增长的天文学、基因组学数据可能成为训练模型的新资源。
    • 挑战:这些数据能否广泛应用于LLMs仍不明确,且需要克服隐私和版权限制。
  2. 合成数据生成
    • AI生成数据
      • OpenAI每天生成1000亿单词,用以训练和扩展模型。
      • 特点:在数学、编程等规则清晰领域,合成数据表现优秀。
    • 潜在问题
      • “模型自噬障碍”(Model Autophagy Disorder):合成数据中潜在错误可能被放大,导致训练结果劣化。
      • 实例:面部生成模型训练中出现的奇怪哈希标记。
  3. 优化现有数据的使用
    • 重复数据学习
      • 研究表明,重复多次使用同一数据集,可以达到类似于增加数据规模的效果。
      • 例如,Stanford团队发现,多次重读数据集(4次)可以获得与新增数据相当的效果。
    • 专注于小模型
      • 开发任务导向的小型模型,提升算法和数据的效率。
  4. 跨模态学习
    • 结合图像、视频等多模态数据,扩展LLMs的训练范围。
    • Yann LeCun的观点:通过视觉和感知数据(如机器人与环境交互产生的感知数据),AI可能达到人类学习的多样化水平。

四、未来发展趋势与争议

  1. 从规模到效率的转变
    • 在计算硬件改进(如AI芯片)的推动下,AI逐渐转向以更少资源获取更高性能。
    • LLMs逐渐从“训练海量数据”模式转向强化学习、推理和自反思等更高效的方法。
  2. 法律与数据开放的平衡
    • 未来的法律裁定将影响数据访问的可行性和成本。
    • 推动开放数据计划,确保学术研究者和非营利组织仍然可以获取所需数据。
  3. 合成数据的广泛应用
    • 尽管合成数据面临一定质量问题,但在隐私敏感领域(如医学)已展现出巨大潜力。
    • 自生成数据可能成为AI训练数据的重要补充。
  4. 技术发展的伦理考量
    • 数据来源的合法性和使用方式的透明化,是技术与社会共同发展的关键。
    • 需要进一步平衡数据提供者、开发者和社会公众的利益。

五、启示

以下是几点启示:

  1. 技术路径转型
    • AI研究需要从“更大”转向“更智能”,通过更高效的算法和多模态学习减少对海量数据的依赖。
  2. 开放数据的重要性
    • 数据的开放与共享是促进学术和公益研究的重要支柱。
  3. 法律框架的建立
    • 制定合理的数据使用法律框架,既保护内容提供者权益,又确保技术进步。
  4. 面向未来的数据探索
    • 跨领域数据(如医疗、教育)和合成数据的广泛使用,将为AI发展提供持续动力。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注