FPT Kubernetes Engine with GPU

📄️ Kubernetes FPT Cloud上のGPUサービス概要

FPT CloudはNVIDIA GPUを使用したKubernetesを提供しており、以下の主要機能を備えています：

📄️ GPU対応Kubernetesクラスターのインストールと初期化

FPT Cloudは以下のGPUカードをサポートしています。

📄️ KubernetesへのGPUアプリケーションのデプロイ

KubernetesはCPUリソースと同様にGPUリソースを管理・使用します。ワーカーグループに選択したGPU設定に基づいて、アプリケーションのGPUリソースを宣言します。

FPT CloudはNVIDIA GPU TelemetryをKubernetes上のGPUシステムの監視・オブザーバビリティツールセットとして、kube-prometheus-stackと統合して使用しています。監視スタックはコレクター、メトリクス保存用の時系列データベース、ビジュアライゼーション層で構成されています。人気のオープンソースアプリケーションであるPrometheusとGrafanaを使用しています。Prometheusにはアラートの作成と管理のためのAlertmanagerも含まれています。PrometheusはKubernetes APIオブジェクトのクラスターレベルメトリクスとGPU利用率などのノードレベルメトリクスを表示するために、kube-state-metricsおよびnode_exporterと共にデプロイされます。

📄️ GPUでのAutoscalerの使用方法

コンテナレベルのオートスケーリング

📄️ GPU共有モードの使用方法

GPU共有モードにより、物理GPUを複数のコンテナで共有してGPU利用率を最適化できます。以下のGPU共有戦略がサポートされています。

📄️ GPUワーカーグループの追加

前提条件:

📄️ KubernetesにおけるGPUドライバーのインストールガイド

ユーザーは、GPU統合済みのFPT Kubernetes EngineクラスターにGPUドライバーを自己インストールできます。

📄️ GPUカスタムメトリクスを使用したオートスケールの設定

KubernetesはPrometheusと統合することで、GPUメトリクスなどのカスタムメトリクスに基づく自動スケーリングをサポートしています。このガイドでは、FPT Kubernetes Engineプラットフォーム上で動作するGPUベースのアプリケーションにオートスケールを設定する方法を説明します。

📄️ 概要