メインコンテンツまでスキップ

Kubernetes FPT Cloud上のGPUサービス概要

FPT CloudはNVIDIA GPUを使用したKubernetesを提供しており、以下の主要機能を備えています:

  • Worker Groupごとに適用できる、複数のGPUタイプとオプションのGPUメモリによる柔軟なGPU設定。
  • NVIDIA OperatorによるKubernetes内のGPUリソースの自動管理と割り当て。
  • NVIDIA DCGMによるGPUの可視化と監視。
  • アプリケーションのGPUリソース使用量が増減した際に、AutoscalerによってContainer/Nodeを自動でスケールアップ/ダウン。
  • Multi-Instanceメカニズムによるシェアリングをサポートし、GPUリソースの利用効率とコストを最適化。

FPT CloudはNVIDIA GPU Operatorを使用しており、KubernetesでGPUを使用するために必要なすべてのソフトウェアコンポーネントを自動管理するツールを提供します。GPU Operatorにより、ユーザーはKubernetesクラスター内でGPUリソースをCPUリソースと同様に使用できます。 Operatorのコンポーネントは以下のとおりです:

  • NVIDIA Drivers(CUDA、MIG など)
  • NVIDIA Device Plugin
  • NVIDIA Container Toolkit
  • NVIDIA GPU Feature Discovery
  • NVIDIA Data Center GPU Manager(Monitoring)

HanoiおよびSaigonリージョンでは、FPT CloudはNvidia A30 GPUを使用したKubernetesを以下のMIGプロファイルでサポートしています:

No.GPU A30 ProfileStrategyNumber instanceInstance resource
1all-1g.6gbsingle41g.6gb
2all-2g.12gbsingle22g.12gb
3all-balancedmixed21g.6gb
412g.12gb
5none(ラベルなし)none00(全体)

Hanoi 2およびJapanリージョンでは、FPT CloudはNvidia H100およびNvidia H200 GPUを使用したKubernetesをサポートしています:

No.GPU H100 SXM5StrategyNumber instanceInstance resource
1all-1g.10gbsingle71g.10gb
2all-1g.20gbsingle41g.20gb
3all-2g.20gbsingle32g.20gb
4all-3g.40gbsingle23g.40gb
5all-4g.40gbsingle14g.40gb
6all-7g.80gbsingle17g.80gb
7all-balancedmixed2 / 1 / 11g.10gb / 2g.20gb / 3g.40gb
8none(ラベルなし)none00(全体)
No.GPU H200 SXM5StrategyNumber instanceInstance resource
1all-1g.18gbsingle71g.18gb
2all-1g.35gbsingle41g.35gb
3all-2g.25gbsingle32g.25gb
4all-3g.71gbsingle23g.71gb
5all-4g.71gbsingle14g.71gb
6all-7g.141gbsingle17g.141gb
7all-balancedmixed2 / 1 / 11g.18gb / 2g.35gb / 3g.71gb
8none(ラベルなし)none00(全体)

例: strategyにsingle: all-1g.6gbを選択した場合、worker上のA30 GPUカードは4つのMIGデバイスに分割され、各デバイスは物理GPUの1/4に相当する論理GPUリソースと6GB GPU RAMを持ちます。 strategyにsingle: all-1g.10gbを選択した場合、worker上のH100 GPUカードは7つのMIGデバイスに分割され、各デバイスは物理GPUの1/7に相当する論理GPUリソースと10GB GPU RAMを持ちます。

注意: MIG設定はworkerに搭載されたすべてのGPUカードに適用されます。同一クラスター内のすべてのworker groupのMIG strategyは同じ種類(single/mixed/none)である必要があります。

このガイドでは、Kubernetes FPT Cloud上のGPUサービスの主要機能について説明します:

  1. GPUを使用するKubernetesクラスターのインストールと初期化
  2. GPUを使用するworker groupの追加
  3. GPUを使用するworker groupの変更
  4. GPUを使用するアプリケーションのデプロイ
  5. GPU Telemetryの使用方法
  6. ドライバーのインストールと使用方法
  7. GPU Custom Metricを使用したAuto Scaleの設定
  8. KEDAとPrometheusを使用したAuto Scaleの設定
  9. GPUシェアリングモードの使用方法