Groq致力于快速AI推理,采用LPU™ (Language Processing Unit)AI推理技术,提供快速、经济且节能的AI解决方案。Groq总部位于硅谷,提供大规模的云端和本地推理服务,适用于各种AI应用。LPU™是Groq在其Tensor Streaming Processor(TSP)架构上的进一步创新。LPU面向即时智能(Instant Intelligence)及其相关的AI创新应用。
LPU具有功能切分的微架构,内存单元与矢量和矩阵计算单元交错排列。这种设计便于利用AI计算图中的数据流局部性,从而提高执行性能和效率。LPU的设计基于如下两个关键点:
- AI工作负载表现出显著的数据并行性,这可以映射到专用硬件上,从而带来性能提升。
- 确定性处理器设计与生产者-消费者编程模型相结合,允许对硬件组件进行精确控制和推理,从而实现优化的性能和能效。
除了其功能切分的微架构外,LPU还具有单核、确定性架构的特点。通过避免使用传统的反应式硬件组件(如分支预测器、仲裁器、重排序缓冲区、缓存)并由编译器显式控制所有执行,LPU实现了确定性执行,从而保证了LPU程序执行的确定性。
第一代LPU(LPU v1)在25×29 mm的14nm芯片上以900 MHz的标称时钟频率运行,每平方毫米硅片上可达到超过1 TeraOp/s的计算密度。第二代LPU(LPU v2)将在三星的4nm工艺节点上制造。