FPT Kubernetes Engine with GPU
FPT Cloud は NVIDIA GPU をサポートする Kubernetes 環境を提供しており、以下の主要機能を備えています。
- Worker Group ごとに複数の GPU タイプとオプションの GPU メモリを選択できる柔軟な GPU 設定。
- NVIDIA Operator を使用した Kubernetes での GPU リソースの自動管理と割り当て。
- NVIDIA DCGM による GPU の可視化とモニタリング。
- アプリケーションの GPU リソース使用量の増減に応じた Autoscaler による自動コンテナ/ノードスケーリング。
- GPU リソースの利用率とコストを最適化するための Multi-Instance 機能による GPU 共有サポート。
FPT Cloud は NVIDIA GPU Operator を使用しており、Kubernetes 上で GPU を使用するために必要なすべてのソフトウェアコンポーネントを自動管理するツールを提供しています。GPU Operator により、Kubernetes クラスター内で GPU リソースを CPU リソースと同様に利用できます。 Operator のコンポーネントには以下が含まれます。
- NVIDIA Drivers(CUDA、MIG など)
- NVIDIA Device Plugin
- NVIDIA Container Toolkit
- NVIDIA GPU Feature Discovery
- NVIDIA Data Center GPU Manager(モニタリング)
ハノイおよびサイゴンリージョンでは、FPT Cloud は現在 Nvidia A30 GPU を使用した Kubernetes を以下の MIG プロファイルでサポートしています。
| No. | GPU A30 Profile | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.6gb | single | 4 | 1g.6gb |
| 2 | all-2g.12gb | single | 2 | 2g.12gb |
| 3 | all-balanced | mixed | 2 | 1g.6gb |
| 4 | 1 | 2g.12gb | ||
| 5 | none (no label) | none | 0 | 0 (Entire) |
ハノイ 2 および日本リージョンでは、FPT Cloud は現在 Nvidia H100 および Nvidia H200 GPU を使用した Kubernetes をサポートしています。
| No. | GPU H100 SXM5 | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.10gb | single | 7 | 1g.10gb |
| 2 | all-1g.20gb | single | 4 | 1g.20gb |
| 3 | all-2g.20gb | single | 3 | 2g.20gb |
| 4 | all-3g.40gb | single | 2 | 3g.40gb |
| 5 | all-4g.40gb | single | 1 | 4g.40gb |
| 6 | all-7g.80gb | single | 1 | 7g.80gb |
| 7 | all-balanced | mixed | 2 / 1 / 1 | 1g.10gb / 2g.20gb / 3g.40gb |
| 8 | none (no label) | none | 0 | 0 (Entire) |
| No. | GPU H200 SXM5 | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.18gb | single | 7 | 1g.18gb |
| 2 | all-1g.35gb | single | 4 | 1g.35gb |
| 3 | all-2g.25gb | single | 3 | 2g.25gb |
| 4 | all-3g.71gb | single | 2 | 3g.71gb |
| 5 | all-4g.71gb | single | 1 | 4g.71gb |
| 6 | all-7g.141gb | single | 1 | 7g.141gb |
| 7 | all-balanced | mixed | 2 / 1 / 1 | 1g.18gb / 2g.35gb / 3g.71gb |
| 8 | none (no label) | none | 0 | 0 (Entire) |
例: strategy single: all-1g.6gb を選択した場合、ワーカー上の A30 GPU カードは 4 つの MIG デバイスに分割され、それぞれが物理 GPU の 1/4 に相当する論理 GPU リソースと 6 GB の GPU RAM を持ちます。 strategy single: all-1g.10gb を選択した場合、ワーカー上の H100 GPU カードは 7 つの MIG デバイスに分割され、それぞれが物理 GPU の 1/7 に相当する論理 GPU リソースと 10 GB の GPU RAM を持ちます。
注意: MIG の設定はワーカーに接続されたすべての GPU カードに適用されます。同一クラスター内のすべてのワーカーグループの MIG ストラテジーは同じタイプ(single/mixed/none)である必要があります。