banner
ホームページ / ブログ / Hot Chips 2023 における Samsung のメモリ技術の処理
ブログ

Hot Chips 2023 における Samsung のメモリ技術の処理

Jul 31, 2023Jul 31, 2023

Hot Chips 2023 (35) で、サムスンは新たな研究と新たなひねりを加えて、自社のメモリ内プロセッシング (PIM) について再び話しています。 これについては、たとえば「Hot Chips 33 Samsung HBM2-PIM and Aquabolt-XL」などで以前に取り上げました。 現在、サムスンはこれを AI の文脈で示しています。

講堂からの生中継ですので、誤字脱字はご容赦ください。 ホットチップスはクレイジーなペースだ。

コンピューティングにおける最大のコストの 1 つは、データをさまざまなストレージやメモリの場所から実際のコンピューティング エンジンに移動することです。

現在、企業はさまざまな種類のメモリにレーンやチャネルを追加しようとしています。 それには限界があります。

サムスンはCXLについて議論している。 CXL を使用すると、PCIe のワイヤを再利用してメモリ帯域幅を増やすことができるため、役立ちます。 CXL Type-3 デバイスについては、今後 STH でさらに詳しく説明する予定であり、これまでに何度か取り上げてきました。

サムスンは GPT のボトルネックについて議論しています。

Samsung は、GPT のコンピューティング負荷とメモリバウンドのワークロードをプロファイリングしています。

ここでは、使用率と実行時間の観点からプロファイリング作業についてもう少し詳しく説明します。

Samsung は、コンピューティング パイプラインの一部をメモリ内処理 (PIM) モジュールにオフロードする方法を示しています。

アクセラレータではなくメモリ モジュールで処理を行うことで、データの移動が節約され、消費電力と相互接続コストが削減されます。

SK ハイニックスがソリューションとして GDDR6 について話している一方で、サムスンは高帯域幅メモリ HBM-PIM を展示しています。 来週あたり STH で Intel Xeon MAX CPU 上の HBM を紹介する予定ですが、この新しいメモリ タイプは使用されていません。

どうやら、Samsung と AMD は標準 PIM ではなく HBM-PIM を搭載した MI100 を搭載しており、新しいメモリを試すために 12 ノード 8 アクセラレータ クラスタのように見えるクラスタを構築できるようになっています。

T5-MoE モデルがクラスター内で HBM-PIM を使用する方法を次に示します。

パフォーマンスとエネルギー効率の向上は次のとおりです。

この重要な部分は、PIM モジュールに有用な作業をさせる方法でもあります。 それには、PIM モジュールをプログラムして利用するためのソフトウェア作業が必要です。

サムスンは、これを標準プログラミングモジュールに組み込むことを望んでいる。

これは、メモリ結合コンピューティングの将来の状態を示す OneMCC ですが、これは現在の状態ではなく、将来の状態のように聞こえます。

Samsung は HBM-PIM だけでなく LPDDR-PIM も披露しているようです。 今日のすべてのものと同様に、Generative AI ラベルが必要です。

これは、クラスター内の AMD MI100 で使用されている HBM-PIM というよりも、むしろ概念のようです。

この LPDDR-PIM の内部帯域幅はわずか 102.4 GB/秒ですが、メモリ モジュール上でコンピューティングを維持することで、データを CPU または xPU に送信する必要がなくなり、電力が削減されるという考えです。

以下は、モジュール上の PIM バンクと DRAM バンクを備えたアーキテクチャです。

考えられる LP5-PIM モジュールのパフォーマンスと電力解析は次のようになります。

HBM-PIM と LPDDR-PIM が十分でない場合、Samsung は PNM-CXL の CXL モジュールにコンピューティングを搭載することを検討しています。

ここでの考え方は、CXL Type-3 モジュールにメモリを搭載するだけではありません。 代わりに、Samsung は CXL モジュールにコンピューティング機能を搭載することを提案しています。 これは、CXL モジュールに計算要素を追加して標準メモリを使用するか、モジュール上の PIM とより標準的な CXL コントローラを使用することによって実行できます。

もちろん、これが GPT 側で生成 AI にどのように役立つかを示しています。

Samsung には、最大 1.1TB/秒の帯域幅を備えたコンセプト 512GB CXL-PNM カードがあります。

これは、Samsung が提案している CXL-PNM ソフトウェア スタックです。

大規模な LLM ワークロードで予想されるエネルギー節約とスループットは次のとおりです。 CXL は通常、PCIe にも使用されるワイヤを経由するため、データ送信のエネルギー コストが非常に高くなります。 結果として、そのデータ転送を回避できることで大きなメリットが得られます。

サムスンは、上記の結果として排出量削減にも注力しています。

Googleは本日、AIコンピューティングにおけるCO2排出量について大きな講演を行った。 今週後半に STH で取り上げる予定です。