Kubernetes FPT Cloud上のGPUサービス概要
FPT CloudはNVIDIA GPUを使用したKubernetesを提供しており、以下の主要機能を備えています:
- Worker Groupごとに適用できる、複数のGPUタイプとオプションのGPUメモリによる柔軟なGPU設定。
- NVIDIA OperatorによるKubernetes内のGPUリソースの自動管理と割り当て。
- NVIDIA DCGMによるGPUの可視化と監視。
- アプリケーションのGPUリソース使用量が増減した際に、AutoscalerによってContainer/Nodeを自動でスケールアップ/ダウン。
- Multi-Instanceメカニズムによるシェアリングをサポートし、GPUリソースの利用効率とコストを最適化。
FPT CloudはNVIDIA GPU Operatorを使用しており、KubernetesでGPUを使用するために必要なすべてのソフトウェアコンポーネントを自動管理するツールを提供します。GPU Operatorにより、ユーザーはKubernetesクラスター内でGPUリソースをCPUリソースと同様に使用できます。 Operatorのコンポーネントは以下のとおりです:
- NVIDIA Drivers(CUDA、MIG など)
- NVIDIA Device Plugin
- NVIDIA Container Toolkit
- NVIDIA GPU Feature Discovery
- NVIDIA Data Center GPU Manager(Monitoring)
HanoiおよびSaigonリージョンでは、FPT CloudはNvidia A30 GPUを使用したKubernetesを以下のMIGプロファイルでサポートしています:
| No. | GPU A30 Profile | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.6gb | single | 4 | 1g.6gb |
| 2 | all-2g.12gb | single | 2 | 2g.12gb |
| 3 | all-balanced | mixed | 2 | 1g.6gb |
| 4 | 1 | 2g.12gb | ||
| 5 | none(ラベルなし) | none | 0 | 0(全体) |
Hanoi 2およびJapanリージョンでは、FPT CloudはNvidia H100およびNvidia H200 GPUを使用したKubernetesをサポートしています:
| No. | GPU H100 SXM5 | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.10gb | single | 7 | 1g.10gb |
| 2 | all-1g.20gb | single | 4 | 1g.20gb |
| 3 | all-2g.20gb | single | 3 | 2g.20gb |
| 4 | all-3g.40gb | single | 2 | 3g.40gb |
| 5 | all-4g.40gb | single | 1 | 4g.40gb |
| 6 | all-7g.80gb | single | 1 | 7g.80gb |
| 7 | all-balanced | mixed | 2 / 1 / 1 | 1g.10gb / 2g.20gb / 3g.40gb |
| 8 | none(ラベルなし) | none | 0 | 0(全体) |
| No. | GPU H200 SXM5 | Strategy | Number instance | Instance resource |
|---|---|---|---|---|
| 1 | all-1g.18gb | single | 7 | 1g.18gb |
| 2 | all-1g.35gb | single | 4 | 1g.35gb |
| 3 | all-2g.25gb | single | 3 | 2g.25gb |
| 4 | all-3g.71gb | single | 2 | 3g.71gb |
| 5 | all-4g.71gb | single | 1 | 4g.71gb |
| 6 | all-7g.141gb | single | 1 | 7g.141gb |
| 7 | all-balanced | mixed | 2 / 1 / 1 | 1g.18gb / 2g.35gb / 3g.71gb |
| 8 | none(ラベルなし) | none | 0 | 0(全体) |
例: strategyにsingle: all-1g.6gbを選択した場合、worker上のA30 GPUカードは4つのMIGデバイスに分割され、各デバイスは物理GPUの1/4に相当する論理GPUリソースと6GB GPU RAMを持ちます。 strategyにsingle: all-1g.10gbを選択した場合、worker上のH100 GPUカードは7つのMIGデバイスに分割され、各デバイスは物理GPUの1/7に相当する論理GPUリソースと10GB GPU RAMを持ちます。
注意: MIG設定はworkerに搭載されたすべてのGPUカードに適用されます。同一クラスター内のすべてのworker groupのMIG strategyは同じ種類(single/mixed/none)である必要があります。
このガイドでは、Kubernetes FPT Cloud上のGPUサービスの主要機能について説明します:
- GPUを使用するKubernetesクラスターのインストールと初期化
- GPUを使用するworker groupの追加
- GPUを使用するworker groupの変更
- GPUを使用するアプリケーションのデプロイ
- GPU Telemetryの使用方法
- ドライバーのインストールと使用方法
- GPU Custom Metricを使用したAuto Scaleの設定
- KEDAとPrometheusを使用したAuto Scaleの設定
- GPUシェアリングモードの使用方法