개요
: node-exporter에서는 gpu에 대한 메트릭을 제공하지 않음 (프로메테우스 공식 node exporter 깃허브 READ ME 참조)
: https://github.com/prometheus/node_exporter
GitHub - prometheus/node_exporter: Exporter for machine metrics
Exporter for machine metrics. Contribute to prometheus/node_exporter development by creating an account on GitHub.
github.com
: gpu에 대한 메트릭을 얻기 위해서는 nvidia에서 만든 dcgm-exporter를 node exporter와 연동해야함
: AMD의 경우 amd_smi_exporter를 지원
dcgm-exporter
: GPU 메트릭을 수집하는 NVIDIA의 모니터링 에이전트
- dcgm exporter 공식 문서
https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/dcgm-exporter.html
DCGM-Exporter — NVIDIA Cloud Native Technologies documentation
In this scenario the DCGM nv-hostengine runs in a separate container on the same host making its client port available to DCGM-Exporter as well as dcgmi client commands. Warning Similar to the warning when connecting to an existing DCGM agent, the dcgm-exp
docs.nvidia.com
- dcgm 공식문서 (설치형 모니터링)
https://developer.nvidia.com/dcgm
NVIDIA DCGM
Manage and Monitor GPUs in Cluster Environments NVIDIA Data Center GPU Manager (DCGM) is a suite of tools for managing and monitoring NVIDIA datacenter GPUs in cluster environments. It includes active health monitoring, comprehensive diagnostics, system al
developer.nvidia.com
- 설정 방법 참조
https://kangwoo.github.io/devops/kubernetes/nvidia-gpu-monitoring/
Prometheus를 사용해서 NVIDIA GPU 모니터링 하기
Node의 GPU 모니터링 하기prometheus를 사용해서 노드들의 매트틱을 수집하고 있다면, 아마 node-exporter를 사용하고 있을 것이다.NVIDIA에서는 dcgm-exporter라는 GPU 매트릭 출력용 이미지를 제공하고 있다.
kangwoo.github.io
amd_smi_exporter
: AMD 그래픽카드에 대한 메트릭을 수집하는 모니터링 에이전트
- amd_smi_exporter
https://github.com/amd/amd_smi_exporter
GitHub - amd/amd_smi_exporter: The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU metrics to the Prometheus server.
The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU metrics to the Prometheus server. - GitHub - amd/amd_smi_exporter: The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU m...
github.com
'InfraStructure > Prometheus' 카테고리의 다른 글
[프로메테우스] exporter의 개념과 종류 (0) | 2023.06.06 |
---|---|
Prometheus 란? (0) | 2022.08.16 |