核心内容摘要
吴梦梦到粉丝第二季大结局:一段旅程的终章,情感的升华与无尽的回响
https://blogs.microsoft.com/blog ... uilt-for-inference/Maia 200 —— 一款突破性的推理加速器旨在大幅改善 AI token 生成的经济性。
Maia 200 是一款强大的 AI 推理引擎它采用台积电 3nm 制程打造配备原生 FP8/FP4 张量核心重新设计的内存系统拥有 216GB HBM3e带宽达 7 TB/s 和 272MB 片上 SRAM并结合数据传输引擎确保超大模型能够持续、高速且高利用率地运行。
这使得 Maia 200 成为所有超大规模云服务商中性能最强的第一方自研芯片其 FP4 性能是第三代 Amazon Trainium 的三倍FP8 性能也超过了谷歌第七代 TPU。
同时Maia 200 也是微软迄今部署过的最高效推理系统其每美元性能比当前机群中最新一代硬件提升了 30%。
Maia 200 是我们异构 AI 基础设施的一部分将服务于多个模型包括来自 OpenAI 的最新 GPT-
2 模型为 Microsoft Foundry 和 Microsoft 365 Copilot 带来更优的性价比优势。
微软超级智能Superintelligence团队将使用 Maia 200 进行合成数据生成和强化学习以提升下一代自研模型的能力。
在合成数据流水线场景中Maia 200 的独特设计有助于加速高质量、特定领域数据的生成与筛选为下游训练提供更新、更有针对性的信号。
Maia 200 目前已部署在美国中部数据中心区域爱荷华州得梅因附近接下来将部署于美国西部 3 区域亚利桑那州菲尼克斯附近未来还将扩展到更多区域。
Maia 200 与 Azure 实现无缝集成我们正在预览 Maia SDK提供一整套用于在 Maia 200 上构建和优化模型的工具。
该 SDK 包含完整能力集包括 PyTorch 集成、Triton 编译器与优化内核库以及对 Maia 底层编程语言的访问权限。
这使开发者在需要时能够进行细粒度控制同时也支持在异构硬件加速器之间轻松移植模型。