Giám sát server
Tính năng giám sát được tích hợp sẵn trong dịch vụ AI Infrastructure - Metal Cloud.
Việc thu thập và trực quan hóa metrics, log và event giúp bạn xác định các vấn đề tiềm ẩn và tối ưu hóa workload trong tương lai. Bạn có thể chọn giải pháp quan sát phù hợp nhất với nhu cầu của mình.
| Metrics | Cluster (cùng VPC) | Server đơn lẻ |
|---|---|---|
| Tổng số node và node down | ✔ | |
| GPU model, driver, phiên bản CUDA | ✔ | |
| Trạng thái kiểm soát | ✔ | |
| Uptime | ✔ | |
| Tổng số GPU và GPU down | ✔ | ✔ |
| Mức sử dụng GPU | ✔ | ✔ |
| GPU memory | ✔ | ✔ |
| Mức sử dụng CPU | ✔ | ✔ |
| System memory | ✔ | ✔ |
| Mức sử dụng root storage | ✔ | ✔ |
| Mức sử dụng local disk | ✔ | ✔ |
| Chi tiết từng GPU: Công suất tiêu thụ, nhiệt độ, mức sử dụng GPU, mức sử dụng VRAM | ✔ | |
| Băng thông mạng Inbound/Outbound | ✔ | ✔ |
| Packet mạng đã gửi và nhận | ✔ | ✔ |
| Tỷ lệ lỗi mạng nhận/gửi | ✔ | |
| Tốc độ quạt hệ thống | ✔ | |
| Điện áp hệ thống | ✔ | |
| Alert chung | ✔ |