Chuyển tới nội dung chính

Giám sát server

Tính năng giám sát được tích hợp sẵn trong dịch vụ AI Infrastructure - Metal Cloud.

Việc thu thập và trực quan hóa metrics, log và event giúp bạn xác định các vấn đề tiềm ẩn và tối ưu hóa workload trong tương lai. Bạn có thể chọn giải pháp quan sát phù hợp nhất với nhu cầu của mình.

MetricsCluster (cùng VPC)Server đơn lẻ
Tổng số node và node down
GPU model, driver, phiên bản CUDA
Trạng thái kiểm soát
Uptime
Tổng số GPU và GPU down
Mức sử dụng GPU
GPU memory
Mức sử dụng CPU
System memory
Mức sử dụng root storage
Mức sử dụng local disk
Chi tiết từng GPU: Công suất tiêu thụ, nhiệt độ, mức sử dụng GPU, mức sử dụng VRAM
Băng thông mạng Inbound/Outbound
Packet mạng đã gửi và nhận
Tỷ lệ lỗi mạng nhận/gửi
Tốc độ quạt hệ thống
Điện áp hệ thống
Alert chung