NVIDIA ConnectX
時々、ただ速く走りたいだけです。 私たちは最近、400Gbps ネットワークについて、PCIe Gen5 x16 スロットが処理できる新しい機能であるという文脈で議論してきました。 今日は、NDR 400Gbps Infiniband/400GbE を使用したセットアップを見ていきます。
PNY に心より感謝いたします。 1 年前にはこのことを知りませんでしたが、PNY は NVIDIA ワークステーション GPU だけでなく、ネットワーク コンポーネントも販売しています。 私たちは 400GbE スイッチの開発に取り組んでおり、議論の中で、そのプロセスの一環としてこれらのカードを検討する必要があるという話になりました。 それは十分簡単に聞こえるかもしれませんが、100GbE ネットワークから 400GbE への大きな飛躍であり、非常に多くの人がハイエンド ネットワーク機器の導入を検討しているため、MCX75310AAS-NEAT カードは現在人気商品となっています。
ConnectX-7 (MCX75310AAS-NEAT) は、PCIe Gen5 x16 ロープロファイル カードです。 フルハイトブラケットを使用して写真を撮影しましたが、箱にはロープロファイルブラケットも含まれています。
注目すべき点は、冷却ソリューションのサイズです。 これがどの程度初期段階にあるのかを知るために、ConnectX-7 の電力仕様を調べましたが、見つかりませんでした。 公式チャネルを通じて NVIDIA に仕様を問い合わせました。 現時点では NVIDIA がそれが何なのかよくわかっていないように見えるため、この記事はそれらを省略して公開しています。 NVIDIA がこれらのカードの電力仕様をデータシートで公開していないだけというのは少し奇妙です。
これは、楽しいヒートシンクバックプレートを備えたカードの裏面です。
これは、PCIe Gen5 x16 コネクタから見たカードの側面図です。
こちらはカードを上から見た図です。
以下は、ほとんどのサーバーで空気の流れが進むと予想される方向から見た図です。
ここで簡単に説明しますが、これは 400Gbps の速度で動作するロープロファイルのシングルポート カードです。 それは膨大な量の帯域幅です。
このようなカードの場合、最も重要な側面の 1 つは、速度を活用できるシステムにカードをインストールすることです。
幸いなことに、これらを Supermicro SYS-111C-NR 1U サーバーと Supermicro SYS-221H-TNR 2U サーバーにインストールしたところ、問題なく動作しました。
SYS-111C-NR のおかげで、システムのセットアップ時にソケット間の接続を避ける必要がなくなり、シングル ソケット ノードのありがたみがわかりました。 10/40Gbps の速度、さらには 25/50Gbps の速度でも、ソケット間のリンクの通過がパフォーマンスの課題として議論されているのを耳にします。 100GbE では、トラバーサルを避けるために CPU ごとに 1 つのネットワーク アダプターを使用することがより重要になり、非常に一般的になりました。 400GbE の速度では、影響は大幅に悪化します。 1 枚の 400GbE カードを備えたデュアル ソケット サーバーを使用する場合は、各 CPU に直接接続できるマルチホスト アダプターを検討する価値があるかもしれません。
カードを取り付けたら、次の課題が始まりました。 カードは OSFP ケージを使用します。 当社の 400GbE スイッチは QSFP-DD を使用します。
2 つの規格は、電力レベルと物理設計の点で少し異なります。 QSFP-DD を OSFP に適応させることはできますが、その逆はできません。 OSFP 光ファイバーや DAC を見たことがない方のために説明しておきますが、OSFP 光ファイバーや DAC には独自の熱管理ソリューションがあります。 上部の QSFP-DD は、QSFP-DD ケージのヒートシンクを使用します。 OSFP には、多くの場合、私たちの研究室の OSFP DAC および光学系にある冷却ソリューションが含まれています。
そのため私たちは数日間パニックに陥りました。 500 ドルの Amphenol OSFP DAC および手持ちの OSFP から QSFP-DD DAC は、ヒートシンク冷却ソリューションを利用していました。 接続するためにすべてをラボに送りましたが、DAC の直接冷却が原因で DAC の OSFP 端が ConnectX-7 カードの OSFP ポートに適合しないというメモが返されました。
NVIDIA が OSFP を使用している理由は、おそらく電力レベルが高いためです。 OSFP では 15W の光ファイバーが可能ですが、QSFP-DD は 12W です。 導入サイクルの初期段階では、電力上限が高いため、早期導入が容易になります。これが、24W CFP8 モジュールのようなものが存在する理由の 1 つです。 一方、FS 400Gbase-SR8 400GbE QSFP-DD 光ファイバーについてはすでに検討しているため、市場は動いています。
数回電話した後、機能するケーブルを入手しました。 現在 ConnectX-7 OSFP アダプタを使用している場合でも、5 年後にこのアダプタが安価な中古品になるときにこの記事を読んでいる場合でも、重要な点は、ConnectX に接続する OSFP 側のヒートシンクのサイズに留意することです。 7。 すべてが接続されて機能する QSFP/QSFP-DD に慣れている場合は、コネクタ サイズなどの愚かな問題に遭遇するという大きな課題があります。 一方、ソリューション プロバイダーの場合は、プロフェッショナル サービス サポートを受ける機会となります。 NVIDIA や PNY などの再販業者も LinkX ケーブルを販売しています。これはより簡単な方法でした。 それは素晴らしい教訓です。
また、ケーブルや光ファイバーを数日間貸し出すのに協力してくれた匿名の STH 読者にも感謝します。 彼らは、所有する 400G ケーブル/光ファイバーを貸与することになっていないため、匿名を希望しました。
次に、これをすべてセットアップして動作させましょう。