メインコンテンツまでスキップ

システムメトリクス

Alt text

システムメトリクス は、モデルのトレーニングと評価中のハードウェアとインフラストラクチャのパフォーマンスをモニタリングするために収集されます。これらのメトリクスはリソースのボトルネックを特定し、ハードウェアの利用率を最適化し、安定して効率的なトレーニングプロセスを確保するのに役立ちます。

メトリクス評価内容
GPU Utilization (%)GPU の処理能力がどれだけ使用されているかを測定します。値が高いと GPU が活発に動作していることを示し、値が低いと他の場所(例: データ読み込み)にボトルネックがある可能性を示します。
CPU Utilization (%)CPU がどれだけ使用されているかを示します。データ前処理や I/O 操作で CPU がボトルネックになっているかどうかを検出するのに有用です。
GPU Power Usage (W)GPU の実際の電力消費量をワット単位で表示します。エネルギー効率と熱制限のモニタリングに役立ちます。
GPU Power Usage (%)使用されている GPU の最大電力容量の割合です。GPU が電力制限にどれだけ近いかを把握するのに有用です。
GPU Memory Usage (MB)現在使用されている GPU メモリの量です。モデルとデータが利用可能なメモリに収まるかどうかを確認するために重要です。
GPU Memory Usage (%)使用されている GPU メモリ総量の割合です。使用率が高いとメモリオーバーフローや不安定が生じる可能性があります。
RAM Usage (MB)現在使用されているシステム RAM の量です。データ読み込み、前処理、またはモデルコンポーネントによるメモリの負荷をモニタリングするのに役立ちます。
RAM Usage (%)使用されているシステム RAM 総量の割合です。値が高い場合はメモリの最適化またはハードウェアのアップグレードが必要な可能性があります。
Network - Bandwidthネットワーク上のデータ転送レートを測定します。分散トレーニングやリモートソースからデータを読み込む場合に重要です。帯域幅が低いとトレーニングが遅くなる可能性があります。