FPT Kubernetes Engine with GPU

FPT Cloud は NVIDIA GPU をサポートする Kubernetes 環境を提供しており、以下の主要機能を備えています。

Worker Group ごとに複数の GPU タイプとオプションの GPU メモリを選択できる柔軟な GPU 設定。
NVIDIA Operator を使用した Kubernetes での GPU リソースの自動管理と割り当て。
NVIDIA DCGM による GPU の可視化とモニタリング。
アプリケーションの GPU リソース使用量の増減に応じた Autoscaler による自動コンテナ/ノードスケーリング。
GPU リソースの利用率とコストを最適化するための Multi-Instance 機能による GPU 共有サポート。

FPT Cloud は NVIDIA GPU Operator を使用しており、Kubernetes 上で GPU を使用するために必要なすべてのソフトウェアコンポーネントを自動管理するツールを提供しています。GPU Operator により、Kubernetes クラスター内で GPU リソースを CPU リソースと同様に利用できます。 Operator のコンポーネントには以下が含まれます。

NVIDIA Drivers（CUDA、MIG など）
NVIDIA Device Plugin
NVIDIA Container Toolkit
NVIDIA GPU Feature Discovery
NVIDIA Data Center GPU Manager（モニタリング）

ハノイおよびサイゴンリージョンでは、FPT Cloud は現在 Nvidia A30 GPU を使用した Kubernetes を以下の MIG プロファイルでサポートしています。

No.	GPU A30 Profile	Strategy	Number instance	Instance resource
1	all-1g.6gb	single	4	1g.6gb
2	all-2g.12gb	single	2	2g.12gb
3	all-balanced	mixed	2	1g.6gb
4			1	2g.12gb
5	none (no label)	none	0	0 (Entire)

ハノイ 2 および日本リージョンでは、FPT Cloud は現在 Nvidia H100 および Nvidia H200 GPU を使用した Kubernetes をサポートしています。

No.	GPU H100 SXM5	Strategy	Number instance	Instance resource
1	all-1g.10gb	single	7	1g.10gb
2	all-1g.20gb	single	4	1g.20gb
3	all-2g.20gb	single	3	2g.20gb
4	all-3g.40gb	single	2	3g.40gb
5	all-4g.40gb	single	1	4g.40gb
6	all-7g.80gb	single	1	7g.80gb
7	all-balanced	mixed	2 / 1 / 1	1g.10gb / 2g.20gb / 3g.40gb
8	none (no label)	none	0	0 (Entire)

No.	GPU H200 SXM5	Strategy	Number instance	Instance resource
1	all-1g.18gb	single	7	1g.18gb
2	all-1g.35gb	single	4	1g.35gb
3	all-2g.25gb	single	3	2g.25gb
4	all-3g.71gb	single	2	3g.71gb
5	all-4g.71gb	single	1	4g.71gb
6	all-7g.141gb	single	1	7g.141gb
7	all-balanced	mixed	2 / 1 / 1	1g.18gb / 2g.35gb / 3g.71gb
8	none (no label)	none	0	0 (Entire)

例： strategy single: all-1g.6gb を選択した場合、ワーカー上の A30 GPU カードは 4 つの MIG デバイスに分割され、それぞれが物理 GPU の 1/4 に相当する論理 GPU リソースと 6 GB の GPU RAM を持ちます。 strategy single: all-1g.10gb を選択した場合、ワーカー上の H100 GPU カードは 7 つの MIG デバイスに分割され、それぞれが物理 GPU の 1/7 に相当する論理 GPU リソースと 10 GB の GPU RAM を持ちます。

注意： MIG の設定はワーカーに接続されたすべての GPU カードに適用されます。同一クラスター内のすべてのワーカーグループの MIG ストラテジーは同じタイプ（single/mixed/none）である必要があります。