Apple 基础模型 (AFM)

Apple 在其 2024 年全球开发者大会上介绍了 Apple Intelligence,这是一种集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。该系统由多个高性能生成模型组成,能够快速、高效地执行各种任务。AFM 分为两个主要模型:AFM-on-device(适用于设备的 30 亿参数模型)和 AFM-server(适用于私有云计算的大型服务器模型)。这些模型旨在高效、准确和负责任地执行各种任务。AFM的详情要点如下:

  • 使用GQA、SwiGLU和RoPE构建的密集解码器架构 → 非常类似于Llama
  • 预训练数据包括许可数据、公开数据集(代码)和由Applebot抓取的数据
  • 使用Safari的阅读器从HTML中提取文本,并通过模型分类、过滤、模糊去重和去污处理
  • AFM设备端模型有49k词汇量,AFM服务器端模型有100k词汇量
  • 三阶段预训练:核心阶段(网络)、继续阶段(高质量)、上下文扩展阶段(长上下文)
  • AFM服务器在TPUv4上训练了7.4T(核心阶段6.3T;继续阶段1T;扩展阶段0.1T)个tokens
  • AFM设备端模型由经过修剪的6.4B(从零开始训练)LLM在第一阶段(核心阶段)训练的6.3T tokens蒸馏而来
  • 预训练后的最大序列长度为32k
  • 生成合成数据,特别是用于数学、工具使用和编码的合成数据
  • 后训练使用了SFT + RLHF → 随后进行适配器训练
  • RLHF使用了iTeC(新的拒绝采样方法)和MDLOO(类似于RLOO)
  • 在后训练中使用RS、DPO、IPO训练了不同的模型,然后生成“最佳”合成数据用于SFT
  • AFM设备端模型在超过100万个由“模型委员会”生成的高质量响应上进行了训练
  • 使用LoRA适配器结合Apple智能功能的全线性架构
  • 结合4-bit量化和适配器训练以恢复质量(在预训练和后训练的10B tokens上训练),然后进行产品特定的适配器训练
  • AFM设备端模型运行在iPhone上的Apple神经引擎(ANE)上
  • 使用了常见基准测试、MMLU、IFEval、Gorilla功能调用和GSM8k进行评估
  • 使用1393个样本与人类专家一起评估通用模型能力
  • 使用LLM-as-a-Judge进行任务特定评估,如摘要撰写

Apple发布了报告“Apple Intelligence Foundation Language Models”,该报告详细描述了 AFM 模型的架构、预训练和后训练过程、优化技术以及评估方法,同时强调了负责任的 AI 原则在模型开发中的重要性。通过这些措施,Apple 确保其 AI 模型能够高效、准确地执行各种任务,同时保护用户的隐私和安全。

Apple Intelligence Foundation Language Models

1. AFM架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型,具有以下设计特点:

  • 共享输入/输出嵌入矩阵以减少参数的内存使用。
  • 使用 RMSNorm 进行预归一化以提高训练稳定性。
  • 使用 GQA(分组查询注意力)减少 KV-cache 内存占用。
  • 采用 SwiGLU 激活函数以提高效率。
  • 使用 RoPE 位置嵌入支持长上下文。

AFM-on-device 模型的具体参数如下:

  • 模型维度:3072
  • 头部维度:128
  • 查询头数量:24
  • 键值头数量:8
  • 层数:26
  • 非嵌入参数数量(十亿):2.58
  • 嵌入参数数量(十亿):0.15

2. 预训练

AFM 预训练过程涉及高效的数据质量管理,以确保模型的高质量和低延迟。预训练数据集包括:

  • 授权出版商数据
  • 公开和开源数据集
  • Applebot 爬取的公共数据

预训练分为三个阶段:

  1. 核心阶段:主要处理大量的网页数据。
  2. 继续阶段:提高高质量数据(如代码和数学数据)的权重,降低低质量数据的权重。
  3. 上下文扩展阶段:在长序列长度上进行训练,并包含合成的长上下文数据。

3. 后训练

后训练阶段包括监督微调(SFT)和从人类反馈中进行的强化学习(RLHF)。主要方法包括:

  • 使用 iTeC(迭代教师委员会拒绝采样)和 MDLOO(镜像下降策略优化和留一法优势估计)。
  • 合成数据生成,特别是数学、工具使用和编码领域。
  • 进行人工注释和偏好反馈收集,以改进模型的指令跟随能力和对话能力。

4. AFM-on-device 优化

AFM-on-device 经过精心设计,能够高效地在设备上运行。其优化技术包括:

  • 使用 LoRA 适配器进行特定任务的微调,同时保留基础模型的通用知识。
  • 应用 4-bit 量化技术以减少内存占用和推理成本,同时保持模型质量。

5. 评估

AFM 模型通过多种基准测试进行评估,包括预训练和后训练阶段的评估,以及特定功能的评估。主要评估指标包括:

  • 预训练后的最大序列长度为 32k
  • 使用常见基准测试(如 MMLU、IFEval、Gorilla 功能调用、GSM8k)进行评估
  • 人工评价模型在实际用例中的表现

6. 负责任的 AI 原则

Apple 在开发 AFM 模型时遵循负责任的 AI 原则,包括:

  • 赋能用户,提供智能工具
  • 真实地代表用户,避免刻板印象和系统性偏见
  • 谨慎设计,预防 AI 工具的误用或潜在伤害
  • 保护用户隐私,确保用户的私人数据不会用于模型训练

这些原则贯穿于模型开发的每一个阶段,从数据收集到模型训练,再到最终的产品部署。通过不断的用户反馈和安全评估,Apple 致力于持续改进其 AI 工具,确保它们能够安全、可靠地为用户服务。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注