寒武纪首颗 7nm 训练芯片思元 290 及玄思1000加速器正式亮相

2022-06-16 新闻中心 0

1月21日，寒武纪思元290智能芯片及加速卡、玄思1000智能加速器量产落地后首次正式亮相。思元290智能芯片是寒武纪的首颗训练芯片，采用台积电7nm制程工艺，集成460亿个晶体管，支持MLUv02扩展架构，全面支持AI训练、推理或混合型人工智能计算加速任务。

寒武纪首颗训练芯片思元290

寒武纪MLU290-M5智能加速卡搭载思元290智能芯片，采用开放加速模块OAM设计，具备64个MLU Core，1.23TB/s内存带宽以及全新MLU-Link™多芯互联技术，在350W的MAX散热功耗下提供AI算力高达1024 TOPS（INT4）。

寒武纪玄思1000智能加速器，在2U机箱内集成4颗思元290智能芯片，高速本地闪存、Mellanox InfiniBand网络，对外提供高速MLU-Link™接口，打破智能芯片、服务器、POD与集群的传统数据中心横向扩展架构，实现AI算力在计算中心级纵向扩展，是AI算力的高集成度平台。

寒武纪训练产品线采用自适应精度训练方案，面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力，推动人工智能赋能产业升级。

思元290采用MLUv02扩展架构

MLUv02架构为寒武纪MLU200全产品线共享，满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻，因此寒武纪对思元290的MLUv02架构进行了多项扩展，包括业内领先的MLU-Link™多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片，思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程，思元290可提供更优性能功耗比，以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展。

寒武纪MLU-Link™ 多芯互联技术

近年来，AI算法模型的复杂程度高速增长，对算力和训练速度提出了更高的要求。为了构建计算平台，多芯片间的互联技术已成为市场刚需。

寒武纪推出MLU-Link™多芯互联技术，并首次搭载于寒武纪思元290芯片，每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link™具备丰富的互联特性，突破PCIe带宽和互联的瓶颈，相比思元270芯片通过PCIe并行的通讯方式，带宽提高19倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联，支持跨系统互联，将纵向扩展能力整合到整个人工智能计算中心（AIDC），可以端到端加速大型AI模型训练。