Groq的LPU™ – 思空，简观

Groq致力于快速AI推理，采用LPU™ （Language Processing Unit）AI推理技术，提供快速、经济且节能的AI解决方案。Groq总部位于硅谷，提供大规模的云端和本地推理服务，适用于各种AI应用。LPU™是Groq在其Tensor Streaming Processor（TSP）架构上的进一步创新。LPU面向即时智能（Instant Intelligence）及其相关的AI创新应用。

LPU具有功能切分的微架构，内存单元与矢量和矩阵计算单元交错排列。这种设计便于利用AI计算图中的数据流局部性，从而提高执行性能和效率。LPU的设计基于如下两个关键点：

AI工作负载表现出显著的数据并行性，这可以映射到专用硬件上，从而带来性能提升。
确定性处理器设计与生产者-消费者编程模型相结合，允许对硬件组件进行精确控制和推理，从而实现优化的性能和能效。

除了其功能切分的微架构外，LPU还具有单核、确定性架构的特点。通过避免使用传统的反应式硬件组件（如分支预测器、仲裁器、重排序缓冲区、缓存）并由编译器显式控制所有执行，LPU实现了确定性执行，从而保证了LPU程序执行的确定性。

第一代LPU（LPU v1）在25×29 mm的14nm芯片上以900 MHz的标称时钟频率运行，每平方毫米硅片上可达到超过1 TeraOp/s的计算密度。第二代LPU（LPU v2）将在三星的4nm工艺节点上制造。

相关文章：

发表评论 取消回复

发表评论取消回复