中国最速の GPU、NVIDIA A100 のほぼ 3 倍の速度を誇る Biren BR100 をご紹介します。
中国は半導体市場への参入を目指しており、今年は目覚ましい成果を上げています。Hot Chips 34 は、NVIDIA が近日発売予定のHopper GPUを発表したときの話題のようです。詳細については、こちらをご覧ください。中国の Birentech は、NVIDIA の Ampere ベースの A100 よりも高速であると言われている BR100 GPU を紹介する機会を得ました。
仕様 BR100
この GPU は、770 億個のトランジスタ (NVIDIA H100 よりわずか 30 億個少ない) を備えた 7nm プロセス ノードに基づいています。このプロセス ノードには、TSMC 2.5D CoWoS 設計が使用されました。メモリに関しては、この巨獣は 64GB HBM2e を搭載し、帯域幅は約 2.3TB/s です。チップサイズは約1074mm²です。
ホッパー H100 | バイレンBR100 |
PCIe Gen5.0 | PCIe Gen5.0 |
メモリーHBM3 | メモリ HBM2e |
メモリ帯域幅 2.3TB/秒 | メモリ帯域幅 3TB/秒 |
TSMS 4n | TSMCの7nm向け2.5D CoWoS |
80GBのメモリー | 64GBのメモリー |
NVLink (ダイツーダイ) 900 GB/秒 | 高速メモリ 896 GB/秒 |
モノリシックなデザイン | MCM(マルチチップモジュール)設計 |
700W | 550W |
アーキテクチャの概要
前述のように、GPU には 2 チップレット MCM 設計があり、各チップレットは 16 個の SPC (ストリーム処理クラスター) によって駆動されます。各 SPC は 16 の EU (実行ユニット) で構成され、4 つの EU がコンピューティング ユニット (CU) を形成します。
- チップレット: 2
- SPC: 2 x 16 = 32
- EU = 32 × 16 = 512
- ク = 512/4 = 128
SPC 内には 16 個の EU があります。より詳しく理解すると、各 EU は 16 のストリーム処理コア (V コア) と T コアまたは Tensor コアで構成されていることがわかります。ストリーム処理コア x16 (または 1 V コア) は、FP32、FP16、INT32、INT16 計算を提供します。
BR100 対 A100
最新世代の Ampere ベースの A100 と比較して、BR100 はいくつかのテストで約 2.6 倍高速です。これは、中国が GPU 部門でいかに急速に加速しているかを示しています。ただし、お手数をおかけして申し訳ありませんが、Hopper ベースの H100 は、同じテストで約 2 ~ 3 倍高速です。これらのテンソル コアは、さまざまなベンチマークでこの利点を約 30 倍に高めることができます。
一般的な使用
GPUは中国の人工知能部門専用のもので、人工知能の性能を高めることで人間の行動を模倣すると言われています。これは、中国が独自の技術に依存できるようにするためです。
コメントを残す