NVIDIA DGX A100 SuperPODとDDN AI400Xでパフォーマンス最大化
目次:
- ディープラーニングのデータアクセスの特性
- DDN AI400XとExascalerについて
- DGX A100 スーパーポッドの特徴
- ディープラーニングトレーニングのパフォーマンス要件
- AI400Xのパフォーマンステスト結果
- リアルワールドのディープラーニングモデルトレーニングのパフォーマンス
- DDN AI400XとExascalerのまとめ
本文:
ディープラーニングのデータアクセスの特性
ディープラーニングのトレーニングは、データアクセスにおいて特別な要件を持っています。通常のHPCとは異なり、ディープラーニングのトレーニングは読み取り I/O が集中的な操作であり、特に再読み込み I/O が集中的です。トレーニングモデルは、非線形の複雑なソルバーを使用して、モデルに最適なウェイトを見つけるためにデータを反復的に読み込みます。データセットがキャッシュに収まらないほど大きい場合、高いパフォーマンスを提供するために、基礎となるファイルシステムは十分なパフォーマンスを持つ必要があります。
ディープラーニングトレーニングにおいては、キャッシュの重要性が常にありますが、データセットが非常に大きい場合はキャッシュできないこともあります。そのため、ディープラーニングトレーニングには高いパフォーマンスのファイルシステムが必要です。DDNのAI400XアプライアンスとExascalerは、ディープラーニングのトレーニングにおいてこれらの要件を満たすために利用されています。
DDN AI400XとExascalerについて
DDN AI400Xは、高性能なファイルシステムであるExascalerを使用したストレージソリューションです。この組み合わせにより、大規模なディープラーニングシステムのトレーニングを最適なパフォーマンスで実現することができます。AI400Xアプライアンスは、10ペタバイトのストレージスペースを持ち、280のノードに最大2テラバイトのピークリードパフォーマンスを提供します。また、分散メタデータにはDDNのDNAが使用されています。
DGX A100 スーパーポッドの特徴
DGX A100 スーパーポッドは、AIとHPCの両方をカバーするために設計および構築されたシステムです。このシステムでは、8つのML Perf トレーニングレコードをすべて達成し、27.6 teraflopの性能を提供しています。AIトレーニングと高性能なHPCを両立するために設計されており、大規模なHPCシステムを活用したトレーニングが可能です。
ディープラーニングトレーニングのパフォーマンス要件
ディープラーニングのトレーニングには、さまざまなI/Oレベルの要件があります。一部のアプリケーションではキャッシュが可能なため、より効率的なデータ形式やファイル形式を使用することができます。しかし、画像分類などのモデルでは、より高いI/Oパフォーマンスが必要になることがあります。特に、大規模なモデルや高精度のデータ形式を使用する場合は、ローカルキャッシングの容量を超えてしまい、リモートファイルシステムに頼ることが必要になります。
AI400Xのパフォーマンステスト結果
AI400Xのパフォーマンステストでは、128キロバイトの読み取り、1メガバイトの読み取り、16メガバイトの読み取りにおけるノードごとのパフォーマンスが評価されました。ベンチマークでは、シーケンシャルおよびランダムなデータアクセスのパフォーマンスが計測され、最大で45ギガバイト/秒のパフォーマンスが達成されました。システム全体のテストでも、500ギガバイト/秒以上のパフォーマンスが観測されました。
リアルワールドのディープラーニングモデルトレーニングのパフォーマンス
実際のディープラーニングモデルのトレーニングにおいても、AI400XとExascalerは優れたパフォーマンスを発揮します。ローカルのソフトウェアRAIDやAI400Xのファイルシステムからデータを読み取る場合でも、ほぼ同等のパフォーマンスが得られました。これにより、ユーザーはデータをローカルにキャッシュする必要がなくなり、柔軟性を向上させることができます。
DDN AI400XとExascalerのまとめ
DDN AI400XとExascalerは、ディープラーニングのトレーニングにおいて高いパフォーマンスとスケーラビリティを提供するソリューションです。これらのシステムを使用することで、NVIDIAのユーザーや科学者はさまざまなモデルやデータ形式での最高のトレーニングパフォーマンスを実現することができます。
リソース: