Apple 基础模型 (AFM) – 思空，简观

Apple 在其 2024 年全球开发者大会上介绍了 Apple Intelligence，这是一种集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。该系统由多个高性能生成模型组成，能够快速、高效地执行各种任务。AFM 分为两个主要模型：AFM-on-device（适用于设备的 30 亿参数模型）和 AFM-server（适用于私有云计算的大型服务器模型）。这些模型旨在高效、准确和负责任地执行各种任务。AFM的详情要点如下：

使用GQA、SwiGLU和RoPE构建的密集解码器架构 → 非常类似于Llama
预训练数据包括许可数据、公开数据集（代码）和由Applebot抓取的数据
使用Safari的阅读器从HTML中提取文本，并通过模型分类、过滤、模糊去重和去污处理
AFM设备端模型有49k词汇量，AFM服务器端模型有100k词汇量
三阶段预训练：核心阶段（网络）、继续阶段（高质量）、上下文扩展阶段（长上下文）
AFM服务器在TPUv4上训练了7.4T（核心阶段6.3T；继续阶段1T；扩展阶段0.1T）个tokens
AFM设备端模型由经过修剪的6.4B（从零开始训练）LLM在第一阶段（核心阶段）训练的6.3T tokens蒸馏而来
预训练后的最大序列长度为32k
生成合成数据，特别是用于数学、工具使用和编码的合成数据
后训练使用了SFT + RLHF → 随后进行适配器训练
RLHF使用了iTeC（新的拒绝采样方法）和MDLOO（类似于RLOO）
在后训练中使用RS、DPO、IPO训练了不同的模型，然后生成“最佳”合成数据用于SFT
AFM设备端模型在超过100万个由“模型委员会”生成的高质量响应上进行了训练
使用LoRA适配器结合Apple智能功能的全线性架构
结合4-bit量化和适配器训练以恢复质量（在预训练和后训练的10B tokens上训练），然后进行产品特定的适配器训练
AFM设备端模型运行在iPhone上的Apple神经引擎（ANE）上
使用了常见基准测试、MMLU、IFEval、Gorilla功能调用和GSM8k进行评估
使用1393个样本与人类专家一起评估通用模型能力
使用LLM-as-a-Judge进行任务特定评估，如摘要撰写

Apple发布了报告“Apple Intelligence Foundation Language Models”，该报告详细描述了 AFM 模型的架构、预训练和后训练过程、优化技术以及评估方法，同时强调了负责任的 AI 原则在模型开发中的重要性。通过这些措施，Apple 确保其 AI 模型能够高效、准确地执行各种任务，同时保护用户的隐私和安全。

1. AFM架构

AFM 基础模型是基于 Transformer 架构的密集解码器模型，具有以下设计特点：

共享输入/输出嵌入矩阵以减少参数的内存使用。
使用 RMSNorm 进行预归一化以提高训练稳定性。
使用 GQA（分组查询注意力）减少 KV-cache 内存占用。
采用 SwiGLU 激活函数以提高效率。
使用 RoPE 位置嵌入支持长上下文。

AFM-on-device 模型的具体参数如下：

模型维度：3072
头部维度：128
查询头数量：24
键值头数量：8
层数：26
非嵌入参数数量（十亿）：2.58
嵌入参数数量（十亿）：0.15

2. 预训练

AFM 预训练过程涉及高效的数据质量管理，以确保模型的高质量和低延迟。预训练数据集包括：

授权出版商数据
公开和开源数据集
Applebot 爬取的公共数据

预训练分为三个阶段：

核心阶段：主要处理大量的网页数据。
继续阶段：提高高质量数据（如代码和数学数据）的权重，降低低质量数据的权重。
上下文扩展阶段：在长序列长度上进行训练，并包含合成的长上下文数据。

3. 后训练

后训练阶段包括监督微调（SFT）和从人类反馈中进行的强化学习（RLHF）。主要方法包括：

使用 iTeC（迭代教师委员会拒绝采样）和 MDLOO（镜像下降策略优化和留一法优势估计）。
合成数据生成，特别是数学、工具使用和编码领域。
进行人工注释和偏好反馈收集，以改进模型的指令跟随能力和对话能力。

4. AFM-on-device 优化

AFM-on-device 经过精心设计，能够高效地在设备上运行。其优化技术包括：

使用 LoRA 适配器进行特定任务的微调，同时保留基础模型的通用知识。
应用 4-bit 量化技术以减少内存占用和推理成本，同时保持模型质量。

5. 评估

AFM 模型通过多种基准测试进行评估，包括预训练和后训练阶段的评估，以及特定功能的评估。主要评估指标包括：

预训练后的最大序列长度为 32k
使用常见基准测试（如 MMLU、IFEval、Gorilla 功能调用、GSM8k）进行评估
人工评价模型在实际用例中的表现

6. 负责任的 AI 原则

Apple 在开发 AFM 模型时遵循负责任的 AI 原则，包括：

赋能用户，提供智能工具
真实地代表用户，避免刻板印象和系统性偏见
谨慎设计，预防 AI 工具的误用或潜在伤害
保护用户隐私，确保用户的私人数据不会用于模型训练

这些原则贯穿于模型开发的每一个阶段，从数据收集到模型训练，再到最终的产品部署。通过不断的用户反馈和安全评估，Apple 致力于持续改进其 AI 工具，确保它们能够安全、可靠地为用户服务。

1. AFM架构

2. 预训练

3. 后训练

4. AFM-on-device 优化

5. 评估

6. 负责任的 AI 原则

相关文章：

发表评论 取消回复

发表评论取消回复