数据资源“枯竭”速度远比石油快~

Nature刊文The AI revolution is running out of data. What can researchers do?(《人工智能革命正在耗尽数据资源——研究人员该怎么办？》)，探讨了人工智能（AI）领域面临的数据瓶颈问题，并提出了潜在的解决方案。文章作者为Nicola Jones。

一、背景：人工智能的崛起与数据驱动的局限

AI发展的数据需求：
- LLMs（如ChatGPT）通过更大规模的神经网络和更丰富的数据集实现了巨大的能力提升。
- 扩展数据集的核心作用：提升语言模型的生成能力，同时开发出“涌现能力”，如逻辑推理、复杂语言翻译等。
- 数据驱动的发展模式：这种“规模即力量”的模式，过去十年被证明是高效的。
数据消耗的规模化特征：
- 文章引用了Epoch AI研究的数据：
  - 当前主流LLMs的训练使用了数十万亿的词元（tokens）。
  - 全球互联网文本数据的总量估计为3100万亿词元。
- 每年的数据增长率（<10%）远低于AI模型训练数据集规模的增长率（>100%）。
即将到来的数据瓶颈：
- 按照预测，到2028年，数据资源的供给将接近枯竭，模型所需的数据集将等同于互联网的全部文本数据。
- 随着数据供给逐渐受限，训练AI的难度和成本将显著上升。

二、面临的核心挑战：技术、法律与伦理三重困境

技术挑战：资源有限与模型扩展的矛盾：
- 数据获取的技术瓶颈：
  - 高质量数据占互联网文本数据的比例较低，例如经过编辑的新闻、书籍内容等。
  - 大量数据因重复、低质量或敏感内容（如成人内容）而被排除。
- 数据增长速度的限制：当前互联网数据增长速率过慢，无法满足AI发展的需求。
法律限制：数据的所有权与公平使用之争：
- 数据版权问题显现：
  - 例如，《纽约时报》和其他新闻机构起诉OpenAI和微软，指控其未经许可使用内容。
- 公平使用原则的争议：AI公司认为“学习”互联网内容与人类阅读无异，而内容提供者则要求赔偿。
伦理问题：隐私与数据获取的平衡：
- 未经许可使用私人数据（如社交媒体内容）可能引发隐私争议。
- 数据爬取行为被更多的网站禁止，进一步削弱了数据的可用性。

三、应对策略：多层次解决方案探索

开拓新数据来源：
- 非公开数据：
  - 公司专有数据：Meta利用其VR设备生成的音频和图像；社交媒体内部数据（如YouTube字幕）。
  - 社会化资源：健康、教育和环境领域的未被充分利用的数据。
- 领域特定数据：
  - 快速增长的天文学、基因组学数据可能成为训练模型的新资源。
- 挑战：这些数据能否广泛应用于LLMs仍不明确，且需要克服隐私和版权限制。
合成数据生成：
- AI生成数据：
  - OpenAI每天生成1000亿单词，用以训练和扩展模型。
  - 特点：在数学、编程等规则清晰领域，合成数据表现优秀。
- 潜在问题：
  - “模型自噬障碍”（Model Autophagy Disorder）：合成数据中潜在错误可能被放大，导致训练结果劣化。
  - 实例：面部生成模型训练中出现的奇怪哈希标记。
优化现有数据的使用：
- 重复数据学习：
  - 研究表明，重复多次使用同一数据集，可以达到类似于增加数据规模的效果。
  - 例如，Stanford团队发现，多次重读数据集（4次）可以获得与新增数据相当的效果。
- 专注于小模型：
  - 开发任务导向的小型模型，提升算法和数据的效率。
跨模态学习：
- 结合图像、视频等多模态数据，扩展LLMs的训练范围。
- Yann LeCun的观点：通过视觉和感知数据（如机器人与环境交互产生的感知数据），AI可能达到人类学习的多样化水平。

四、未来发展趋势与争议

从规模到效率的转变：
- 在计算硬件改进（如AI芯片）的推动下，AI逐渐转向以更少资源获取更高性能。
- LLMs逐渐从“训练海量数据”模式转向强化学习、推理和自反思等更高效的方法。
法律与数据开放的平衡：
- 未来的法律裁定将影响数据访问的可行性和成本。
- 推动开放数据计划，确保学术研究者和非营利组织仍然可以获取所需数据。
合成数据的广泛应用：
- 尽管合成数据面临一定质量问题，但在隐私敏感领域（如医学）已展现出巨大潜力。
- 自生成数据可能成为AI训练数据的重要补充。
技术发展的伦理考量：
- 数据来源的合法性和使用方式的透明化，是技术与社会共同发展的关键。
- 需要进一步平衡数据提供者、开发者和社会公众的利益。

五、启示

以下是几点启示：

技术路径转型：
- AI研究需要从“更大”转向“更智能”，通过更高效的算法和多模态学习减少对海量数据的依赖。
开放数据的重要性：
- 数据的开放与共享是促进学术和公益研究的重要支柱。
法律框架的建立：
- 制定合理的数据使用法律框架，既保护内容提供者权益，又确保技术进步。
面向未来的数据探索：
- 跨领域数据（如医疗、教育）和合成数据的广泛使用，将为AI发展提供持续动力。

一、背景：人工智能的崛起与数据驱动的局限

二、面临的核心挑战：技术、法律与伦理三重困境

三、应对策略：多层次解决方案探索

四、未来发展趋势与争议

五、启示

相关文章：

发表评论 取消回复

发表评论取消回复