AIデータセンターのGPU相互接続技術を発表、脱NVLink

Alibaba Cloudのエンジニア兼研究者であるEnnan Zhai氏が、LLMトレーニング向けデータセンターのGPUをイーサネットで相互接続する方法に関する研究論文を発表した。

この技術は特に、NVIDIAのGPU相互接続プロトコルであるNVLinkではなくイーサネットを採用している点で斬新とされている。

Alibaba Cloud ditches Nvidia's interconnect in favor of Ethernet — tech giant uses own High Performance Network to connect 15,000 GPUs inside data center | Tom's Hardware
https://www.tomshardware.com/tech-industry/alibaba-cloud-ditches-nvidias-interconnect-in-favor-of-ethernet-tech-giant-uses-own-high-performance-network-to-connect-15000-gpus-inside-data-center

Zhai氏らはAlibabaのデータセンターで独自のハイパフォーマンスネットワーク(HPN)を構築。
このHPNにより、AlibabaのAIデータセンターでは8個のGPUと9個のネットワークインターフェイスカード(NIC)を搭載した1875台のホストが各400Gbps、合計3.2Tbpsの帯域幅で通信することが可能に。

GPUを8個搭載したホストが1875台あるということは、このデータセンターでは1万5000個のGPUが相互接続されていることになります。

【Alibabaの研究発表で特に注目されている点】
1つ目は、ホスト間の相互接続にNVIDIAのNVlinkではなくイーサネットを用いている点。
イーサネットを選んだ理由について研究チームは「ベンダーロックインを避けてEthernet Alliance全体の力を活用し、より速い進化を遂げたいから」と説明。

つまりNVIDIAからの脱却が可能と言う事である。

2点目は、スイッチにマルチチップではなく51.2Tbpsのシングルチップスイッチを選んだこと。
シングルチップはマルチと比較して故障率が高くなるが、Alibabaは独自の「ベーパーチャンバー(VC)ヒートシンク」でチップが105度を超えないようにする冷却システムを開発。

ベーパーチャンバー内にあるウィック構造を最適化し、チップの中央により多くのウィック構造の柱を配置することで、さらに効率的に熱を逃がすことが可能になったと論文は説明している。

AlibabaのHPNは、論文が発表された時点で既に8カ月の運用実績があるとのこと。

これが大々的に採用されれば、AI時代のデータセンター用GPUがNVIDIAに縛られる事が無くなり、GPUメーカーとの競争も激しくなると予想される。

これはNVIDIAが独占している市場が崩れると言う事を意味する。
NVIDIA以外のメーカー、ベンダーにとっても大いに歓迎するものである。

これは巡り巡ってNVIDIA製GPUは勿論、他のメーカー製GPUであっても一般ユーザーが入手できるGPUの価格が下がる可能性が大きいと言う事である。

為替問題はどうにもならないが。

※関連情報
AIデータセンターの1万5000個のGPUを相互接続する技術をAlibaba Cloudの研究者が発表、NVIDIA技術を捨ててイーサネットを採用

KALMIA-WORKS

Renewed in August 24,2017.

AIデータセンターのGPU相互接続技術を発表、脱NVLink