📄️ Kubernetes FPT Cloud上のGPUサービス概要
FPT CloudはNVIDIA GPUを使用したKubernetesを提供しており、以下の主要機能を備えています:
📄️ GPU対応Kubernetesクラスターのインストールと初期化
FPT Cloudは以下のGPUカードをサポートしています。
📄️ GPUワーカーグループの変更
前提条件:
📄️ KubernetesへのGPUアプリケーションのデプロイ
KubernetesはCPUリソースと同様にGPUリソースを管理・使用します。ワーカーグループに選択したGPU設定に基づいて、アプリケーションのGPUリソースを宣言します。
📄️ GPUテレメトリの使用方法
FPT CloudはNVIDIA GPU TelemetryをKubernetes上のGPUシステムの監視・オブザーバビリティツールセットとして、kube-prometheus-stackと統合して使用しています。監視スタックはコレクター、メトリクス保存用の時系列データベース、ビジュアライゼーション層で構成されています。人気のオープンソースアプリケーションであるPrometheusとGrafanaを使用しています。Prometheusにはアラートの作成と管理のためのAlertmanagerも含まれています。PrometheusはKubernetes APIオブジェクトのクラスターレベルメトリクスとGPU利用率などのノードレベルメトリクスを表示するために、kube-state-metricsおよびnode_exporterと共にデプロイされます。
📄️ GPUでのAutoscalerの使用方法
コンテナレベルのオートスケーリング
📄️ GPU共有モードの使用方法
GPU共有モードにより、物理GPUを複数のコンテナで共有してGPU利用率を最適化できます。以下のGPU共有戦略がサポートされています。
📄️ GPUワーカーグループの追加
前提条件:
📄️ KubernetesにおけるGPUドライバーのインストールガイド
ユーザーは、GPU統合済みのFPT Kubernetes EngineクラスターにGPUドライバーを自己インストールできます。
📄️ GPUカスタムメトリクスを使用したオートスケールの設定
KubernetesはPrometheusと統合することで、GPUメトリクスなどのカスタムメトリクスに基づく自動スケーリングをサポートしています。このガイドでは、FPT Kubernetes Engineプラットフォーム上で動作するGPUベースのアプリケーションにオートスケールを設定する方法を説明します。
📄️ 概要
FPT Kubernetes Engine with GPU
📄️ KEDAとPrometheusを使用したオートスケールの設定
前提条件