メインコンテンツまでスキップ

GPUテレメトリの使用方法

FPT CloudはNVIDIA GPU TelemetryをKubernetes上のGPUシステムの監視・オブザーバビリティツールセットとして、kube-prometheus-stackと統合して使用しています。監視スタックはコレクター、メトリクス保存用の時系列データベース、ビジュアライゼーション層で構成されています。人気のオープンソースアプリケーションであるPrometheusとGrafanaを使用しています。Prometheusにはアラートの作成と管理のためのAlertmanagerも含まれています。PrometheusはKubernetes APIオブジェクトのクラスターレベルメトリクスとGPU利用率などのノードレベルメトリクスを表示するために、kube-state-metricsおよびnode_exporterと共にデプロイされます。

以下のコマンドでGPUカスタムメトリクスを確認します:

kubectl get --raw /apis/custom.metrics.k8s.io/v1beta1 | jq -r . | grep DCGM

PrometheusにアクセスしてGPU DCGMメトリクスを確認します:

kubectl port-forward service/kube-prometheus-stack-1679-prometheus 9090:63090

http://localhost:63090/

Prometheusインターフェイスで以下の手順に従ってGPU DCGMメトリクスを確認します。

Grafana Dashboardにアクセスします:

kubectl port-forward service/kube-prometheus-stack-1679050354-grafana 80:63080

http://localhost:63080/

Grafanaへのログインデフォルト認証情報:

  • ユーザー: admin
  • パスワード: prom-operator

GPU用Grafana Dashboardのインポート:

ダッシュボードをインポートするには、GrafanaインターフェイスでDashboards > Manage > Importに移動します。FPT Cloudのダッシュボードを使用する場合は、FPT Cloud GPU Dashboard JSONのコンテンツを貼り付けてLoadをクリックします。

FPT Cloud GPU Dashboard: