1.7exaflops!全球最强超算公布:集成44544个MI300A芯片
当地时间2024年11月18日,在“2024 年超级计算”大会上,Top500组织公布了全球最强超算Top500榜单。其中,位于美国劳伦斯利弗莫尔国家实验室 (LLNL)的由 AMD 提供支持的 El Capitan 以 1.742 exaflops 的峰值性能成为目前地球上已知的最快的超级计算机。这也是AMD支持的超级计算机第六次登顶全球超算Top500榜单。
据介绍,El Capitan超级计算机位于劳伦斯利弗莫尔国家实验室 (LLNL),由 AMD Instinct MI300A APU 提供支持,由惠普企业 (HPE) 打造。该系统拥有11136 个节点,其中包含 44544 个 AMD 的 MI300A、主内存容量高达5.4PB。此外还有一个近节点存储子系统。
具体来说,MI300A 芯片是 AMD 投入生产的最大的AI芯片,其内部拥有多达13个小芯片,其中GPU是新一代的CDNA 3架构,并集成了24个Zen 4 CPU内核,配置了8个共计128GB的HBM3内存。均基于台积电5nm或6nm制程工艺(CPU/GPU计算核心为5nm,HBM内存和I/O等为6nm),总共集成1460 亿个晶体管。这也意味着拥有11136 个节点的El Capitan 拥有 11,039,616 个计算内核 (CPU+GPU),分布在 44,544 个 AMD MI300A 处理器上。
根据最新的全球超算Top500 榜单,El Capitan的高性能 Linpack (HPL)得分为 1.742 exaflops,即每秒1.742万亿次运算,这比Top500超算榜单中的第二名Frontier快了45%。
AMD表示,El Capitan 是世界上最强大的超级计算机,也是美国国家核安全管理局(NNSA)的第一台百万兆级计算机,是NNSA三家实验室(LLNL、洛斯阿拉莫斯和桑迪亚国家实验室)的首要计算资源。它将用于推进科学发现和国家安全,提供必要的巨大计算能力,以确保国家核威慑的安全性、保障性和可靠性,而无需测试。这个最先进的系统标志着 HPC 的巨大飞跃,实现了前所未有的建模和仿真功能,这对于 NNSA 的库存管理计划至关重要,该计划可以认证老化的核库存,以及其他关键的核安全任务,例如防扩散和反恐。
“我们很高兴看到 El Capitan 成为全球第二台打破 exaflop 障碍并成为世界上最快的超级计算机。这款开创性的机器展示了 AMD Instinct MI300 APU 令人难以置信的性能和效率,证明了 AMD、LLNL 和 HPE 之间的专注工作,“AMD 执行副总裁兼总经理 Forrest Norrod 说。“在 AMD,我们正在以领先的性能和功能推动计算的未来,这些性能和功能将继续定义未来几年 HPC 和 AI 的融合。”
LLNL 高级仿真和计算项目主任 Rob Neely 表示:“El Capitan 对美国国家核安全局的核心任务至关重要,它极大地增强了我们执行大型高保真 3D 仿真集合的能力,这些仿真可以解决任务面临的复杂科学挑战。”
LLNL 的 Livermore Computing 首席技术官 Bronis R. de Supinski 补充道:“利用 AMD Instinct MI300A APU,我们构建了一个曾经难以想象的系统,在保持卓越能效的同时突破了计算性能的绝对界限。随着 AI 在我们的领域越来越普遍,El Capitan 使我们能够将 AI 与传统的模拟和建模工作负载集成,为跨各个科学学科的发现开辟新的途径。”
排名第二的超级计算机是Frontier,它位于美国橡树岭国家实验室,也是由 AMD EPYC CPU 和 AMD Instinct GPU 提供支持,是世界上第二快的计算机,性能为 1.35 exaflops,比之前提交的 1.194 有所增加。Rpeak 也从 1.714 exaflops 增加到 2.055 exaflops。
排名第三的超级计算机是Aurora,其位于美国伊利诺伊州的阿贡国家实验室,其在完整安装完毕的状态下,内部将整合21248个Intel Xeon Max系列CPU、63744个Intel Max系列GPU、20.42PB内存,峰值性能号称可达 2 EFlop / s,远超 Frontier。
但是,美国能源部没有为英特尔的 Aurora 提交新的基准测试。其6月前的提交的数据是1.012 exaflop/s的HPL性能,虽然相比首次上榜时(当时未全部安装完成)性能几乎翻了一倍,基准测试运行仅占系统的87%。当时,英特尔表示 Aurora 存在许多硬件问题,包括硬件和冷却系统故障、操作错误和网络不稳定。
Aurora没有提交新的数据,这意味着一些问题尚未得到完全解决。不过,Aurora 仍然引领着以 AI 为中心的 HPL-MxP 混合精度基准测试,使其成为世界上已知最快的 AI 超级计算机,具有 10.6 AI Exaflops 的性能。
需要指出的是,此外,El Capitan系统是基于HPE的Shasta 架构构建的,该架构由高密度液冷 EX4000 机柜和与 Slingshot-11 网络互连绑定在一起的 EX225a 加速器刀片组成。该平台也为另外两台百万兆次级超级计算机Frontier和Aurora提供支持。这使得HPE的系统在 Top500 名单上占据了前三名,而这三个系统都是该名单上的E级超算系统。
排名第四的超算是Eagle,其安装在微软的 Azure 云服务基础设施中,该系统基于英特尔 Xeon Platinum 8480C 处理器和英伟达H100 加速器,并实现了 561 Petaflop/s 的 HPL 分数。
排名第五的超算是HPC6,安装在意大利 Ferrera Erbognone 的 Eni S.p.A 中心。它是另一款 HPE Cray EX235a 系统,采用针对 HPC 和 AI 优化的第 3 代 AMD EPYC CPU、AMD Instinct 250X 加速器和 Slingshot-11 互连,性能达到了 477.9 Petaflop/s。
事实上,Top500榜单中,速度最快的前十台超级计算机当中,有5台(El Capitan、Frontier、HPC6、LUMI 和 Tuolumne)都是由AMD芯片提供支持的;有3台(Aurora、Eagle、Leonardo)是由英特尔提供支持的;英伟达提供支持的有1台(Alps);日本超级计算机Fugaku则依赖Arm处理器富士通 A65FX 48c 2.2GHz。
同时,速度最快的前十台超级计算机当中有 7 台使用 Slingshot-11 互连(El Capitan、Frontier、Aurora、HPC6、Alps、LUMI 和 Tuolumne),而另外两台使用 Infiniband(Eagle 和 Leonardo)。Fugaku拥有自己专有的Tofu互连。
德国超算JEDI位居能效榜第一
在评估高能效的Green500榜单上,德国的超级计算机JEDI位居第一。JEDI 是一款 BullSequana XH3000 机器,配备 Grace Hopper 超级芯片 72c 2GHz、NVIDIA GH200 超级芯片、四轨 NVIDIA InfiniBand NDR200、 并且总共有 19,584 个内核。虽然在TOP500性能榜单中排名第 224 位,但能够达到 72.73 GFlops/W 的能效评级。
相比之下El Capitan 在满负荷使用时消耗 >35 MW 的功率,并提供 58.89 GFlops/W,在 Green500 最高效超级计算机排名中排名第 18 位。
从Top500组织公布的系统供应商来看,联想以高达162台(32.4%)的拥有数量牢牢占据着全球Top500超算榜单第一的位置。紧随其后的是HPE,数量为115台(23%)。
国产超算可进入全球前五
需要指出的是,虽然 El Capitan 现在是世界上已知最快的超级计算机,但是由于中国已决定不再参加Top500的HPL基准测试,实际上已经拥有比之前的“神威太湖之光”更强的超级计算机,但是由于一些仍处于保密状态,因此无法进行比较。
不过,在11月15日于北京举行的第六届中国超级算力大会(ChinaSC 2024)会上,中国计算机学会高性能计算专业委员会联合中国工业与应用数学学会高性能计算与数学软件专业委员会、中国智能计算产业联盟共同发布了2024中国高性能计算机(HPC)性能TOP100榜单。
在该榜单上,一台由某服务器供应商研制、部署于某超算中心的主机系统以487.94PFLOPS(约48.79亿亿次每秒)的测试性能蝉联第一。该主机系统采用CPU+GPU异构众核架构,CPU核数达到1597万核,系统峰值达到620 PFLOPS。而此前曾多年“霸榜”的两台熟悉面孔——“神威·太湖之光”和“天河二号A”,在今年的榜单中分列第四和第六位。
如果按照487.94PFLOPS的成绩来对比,该国产超级计算机则可以排在全球Top500超算榜单的第五位。