AMD を搭載した Frontier スーパーコンピューターは、複数のハードウェア障害を経験しています

AMD を搭載した Frontier スーパーコンピューターは、複数のハードウェア障害を経験しています

スーパーコンピュータの構築には常に多くの労力が必要ですが、この分野で最初のエクサフロップ クラスのハードウェアを作成することは非常に困難であり、多くのハードウェアとソフトウェアの開発が必要です。残念ながら、これはオークリッジ国立研究所のFrontier スーパーコンピューターの場合に当てはまる可能性があります

ORNL の Frontier システムは、 64 コアAMD EPYC Trentoプロセッサ、Instinct MI250Xコンピューティング GPU、およびHPE Slingshotインターコネクトを備えており、21 MW の消費電力で最大1,685 FP64 ExaFLOPSのピーク パフォーマンスを達成できる業界初のシステムです。このシステムは、スケーラブルなアプリケーション、特に非常に高速なスーパーコンピューター向けに構築されたCray EXアーキテクチャを使用して HPE によって構築されました。

Frontier スーパーコンピューターのハードウェア コンポーネントは納品されており、書類上ではこのマシンには驚くべき可能性があるように見えますが、ハードウェアの問題によりオンラインになり、約1 FP64 ExaFLOPSのパフォーマンスを必要とする研究者が利用できなくなっているようです 。.

Oak Ridge Leadership Computing Facility (OLCF) のプログラム ディレクターであるJustin Witt氏は、この状況について次のようにコメントしています。

私たちはハードウェアの問題に取り組み、(それらが何であるか) を理解していることを確認します。この規模では失敗するでしょう。この規模のシステムで障害が発生するまでの平均時間は、数日ではなく数時間です。」

しばらくの間、フロンティアのハードウェア障害の可能性についての噂がありました。InsideHPCの別の記事によると、Slingshot コネクタがシステムに問題を引き起こしていると主張する人もいます。他のレポートによると、AMD の Instinct MI250X コンピューティング GPU は、今年はそれほど信頼性が高くありませんでした。限られた数の消費者のみが、より多くのストリーム プロセッサとより高速な X バージョンを購入できることに留意することが重要です。

ウィット氏は、コンピューターにいくつかのハードウェアの問題があると主張しましたが、システムに Instinct や Slingshot に特定の問題があったことについては言及しませんでした。

多くの問題がこれらの [GPU] に関連していますが、これらは私たちが目にする問題の大部分ではありません。これは、大きな部分を占めていた通常の部品の故障の犯人の間でかなり広がっています. 現時点では、AMD 製品についてあまり心配しているとは思いません。」

AMD EPYC プロセッサ、Slingshot インターコネクト、および HPE の Cray EX アーキテクチャを使用しているのは、オークリッジ国立研究所の Frontier スーパーコンピューターだけではありません。たとえば、世界で 3 番目に強力なスーパーコンピューターとして公式に認められているフィンランドのLumiスーパーコンピューターは、同様のコンポーネントを使用した場合に550 ペタフロップスのピーク パフォーマンスを発揮します。合計6,000 万個を必要とするマシンのサイズは、問題を実行可能にすることができます。

Frontier スーパーコンピューターがまだ正式に展開されていないことを考えると、当初の計画どおり2022 年に2023 年から科学者が利用できるようになるかどうかはまだ不明です。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です