Page 86 - 2025年第56卷第6期

P. 86

式中ｓ和ｓ为计算单元边界两侧的波速并由下式计算：
－＋ｎ
{ ｓ＝ｍｉｎ（ｕ－ｇｈ，ｕ－ｃ）（１０）
槡
ｓ
ｓ
－
－
－

ｎ
ｓ＝ｍａｘ（ｕ＋ｇｈ，ｕ＋ｃ）
槡
ｓ
＋
＋
ｓ
＋

ｎ
ｎ
ｎ
ｎ
ｎ
ｎ
式中：ｕ、ｕ为计算单元边界两侧的法向速度；ｕ＝（ｕ＋ｕ）?２＋（ｇｈ－ｇｈ）；ｃ＝（ｕ－ｕ）?４＋
槡
槡
＋
ｓ
ｓ
－
＋
＋
－
＋
－
－
［２６－２７］
（ｇｈ＋ｇｈ）?２。对于干单元的情况，波速可以用下式计算：
槡
槡
－
＋
ｎ
{ ｓ＝ｕ－ｇｈ－
槡
－
－
边界正向一侧为干单元：ｎ
ｓ＝ｕ＋２ｇｈ
＋＋槡－
（１１）

ｎ
{ ｓ＝ｕ－２ｇｈ＋
槡
－
－
边界负向一侧为干单元：ｓ＝ｕ＋ｇｈ＋

ｎ
槡
＋
＋
２．３并行策略与计算平台基于ＧＰＵ的水动力并行计算已经有较多讨论［１７，１９－２１］，这些研究大多基
于美国英伟达公司的ＣＵＤＡ并行计算平台实现。Ｍｏｒａｌｅｓ－Ｈｅｒｎａｎｄｅｚ等［２２］在美国ＳＵＭＭＩＴ超级计算
机上实现的 “多节点－多ＧＰＵ” 并行计算也是基于ＣＵＤＡ实现的。ＣＵＤＡ依靠英伟达系ＧＰＵ硬
件运行，而通过模拟层在第三方ＧＰＵ硬件上运行ＣＵＤＡ已遭到英伟达禁止。考虑到当前国产
ＣＰＵ和ＧＰＵ单体算力性能较弱、无法使用ＣＵＤＡ的实际情况，本研究提出一种适用于国产ＣＰＵ
和ＧＰＵ、基于 “多节点－多ＧＰＵ” 架构（图１）的大规模分布式异构并行计算技术，以弥补单卡性
能劣势。
图１可实现大量ＧＰＵ并行的 “多节点－多ＧＰＵ” 异构计算平台结构
这项技术以开源ＭＰＩ并行程序为基础，执行节点之间以及芯片
之间的协调任务，同时在开源程序ＨＩＰ基础上构建ＧＰＵ接口实现前
述水动力学大模型对国产ＧＰＵ的并行计算支持，从而实现对国产
ＣＰＵ?ＧＰＵ异构并行计算平台的适配。ＭＰＩ是一种基于消息传递的并
行编程方案［２６］，其核心是 “进程”，每个进程都是一个独立的任务执
行者。ＭＰＩ允许在多个计算节点之间进行通信和数据交换，使用 “发
送－接收” 模式来传递消息，即一个进程将消息发送给另一个进程，
然后等待响应，这种通信方式避免了共享内存的使用，减少了同步和
竞态条件的产生。设计求解二维浅水方程的ＭＰＩ并行算法必须考虑
两个关键问题：（１）选择恰当的区域分解策略，将区域 Ω分解成多个图２ＭＰＩ的区域分解示意图（空心圆
子区域并分配给不同的进程；（２）选择合适的通信结构，通过尽可能表示中间子区域计算时需要获取的
相邻结点信息）
低的成本实现通信。在任意结构化网格上，执行Ｇｏｄｕｎｏｖ有限体积法
需要知道该结点上、下、左、右四个相邻结点上的信息。本模型采用结构化网格对区域 Ω尽可能进行
平均分配，并通过ＭＰＩ联系不同子区域，架构设计如图２所示。
本研究采用了通用国产Ｘ８６计算服务平台，其具备超百万核心通用计算资源、超万片异构加速
卡、通用计算节点突破万台，具有高核心、高内存带宽、低延迟网络通信及大容量存储资源等特
征。每个计算节点配置如下：ＣＰＵ为国产某处理器７１８５（３２核，６４线程，主频２．５ＧＨｚ），ＧＰＵ为
国产计算芯片，内存１２８ＧＢ，网络带宽２００Ｇｂ?ｓ。ＣＰＵ主要负责模型初始化、任务分解与逻辑运
４
— ７７ —

81 82 83 84 85 86 87 88 89 90 91