メインコンテンツまでスキップ

FPT Kubernetes Engine with GPU

Documentation, tutorials and references for FPT Kubernetes Engine with GPU.

📄️ GPUテレメトリの使用方法

FPT CloudはNVIDIA GPU TelemetryをKubernetes上のGPUシステムの監視・オブザーバビリティツールセットとして、kube-prometheus-stackと統合して使用しています。監視スタックはコレクター、メトリクス保存用の時系列データベース、ビジュアライゼーション層で構成されています。人気のオープンソースアプリケーションであるPrometheusとGrafanaを使用しています。Prometheusにはアラートの作成と管理のためのAlertmanagerも含まれています。PrometheusはKubernetes APIオブジェクトのクラスターレベルメトリクスとGPU利用率などのノードレベルメトリクスを表示するために、kube-state-metricsおよびnode_exporterと共にデプロイされます。