GPUテレメトリの使用方法
FPT CloudはNVIDIA GPU TelemetryをKubernetes上のGPUシステムの監視・オブザーバビリティツールセットとして、kube-prometheus-stackと統合して使用しています。監視スタックはコレクター、メトリクス保存用の時系列データベース、ビジュアライゼーション層で構成されています。人気のオープンソースアプリケーションであるPrometheusとGrafanaを使用しています。Prometheusにはアラートの作成と管理のためのAlertmanagerも含まれています。PrometheusはKubernetes APIオブジェクトのクラスターレベルメトリクスとGPU利用率などのノードレベルメトリクスを表示するために、kube-state-metricsおよびnode_exporterと共にデプロイされます。
以下のコマンドでGPUカスタムメトリクスを確認します:
kubectl get --raw /apis/custom.metrics.k8s.io/v1beta1 | jq -r . | grep DCGM
PrometheusにアクセスしてGPU DCGMメトリクスを確認します:
kubectl port-forward service/kube-prometheus-stack-1679-prometheus 9090:63090
http://localhost:63090/
Prometheusインターフェイスで以下の手順に従ってGPU DCGMメトリクスを確認します。
Grafana Dashboardにアクセスします:
kubectl port-forward service/kube-prometheus-stack-1679050354-grafana 80:63080
http://localhost:63080/
Grafanaへのログインデフォルト認証情報:
- ユーザー: admin
- パスワード: prom-operator
GPU用Grafana Dashboardのインポート:
ダッシュボードをインポートするには、GrafanaインターフェイスでDashboards > Manage > Importに移動します。FPT Cloudのダッシュボードを使用する場合は、FPT Cloud GPU Dashboard JSONのコンテンツを貼り付けてLoadをクリックします。
FPT Cloud GPU Dashboard:


