320x100
320x100

개요

: node-exporter에서는 gpu에 대한 메트릭을 제공하지 않음 (프로메테우스 공식 node exporter 깃허브 READ ME 참조)

: https://github.com/prometheus/node_exporter

 

GitHub - prometheus/node_exporter: Exporter for machine metrics

Exporter for machine metrics. Contribute to prometheus/node_exporter development by creating an account on GitHub.

github.com

: gpu에 대한 메트릭을 얻기 위해서는 nvidia에서 만든 dcgm-exporter를 node exporter와 연동해야함

: AMD의 경우 amd_smi_exporter를 지원

 

 

 

 

 

dcgm-exporter

: GPU 메트릭을 수집하는 NVIDIA의 모니터링 에이전트

 

- dcgm exporter 공식 문서

https://docs.nvidia.com/datacenter/cloud-native/gpu-telemetry/dcgm-exporter.html

 

DCGM-Exporter — NVIDIA Cloud Native Technologies documentation

In this scenario the DCGM nv-hostengine runs in a separate container on the same host making its client port available to DCGM-Exporter as well as dcgmi client commands. Warning Similar to the warning when connecting to an existing DCGM agent, the dcgm-exp

docs.nvidia.com

 

- dcgm 공식문서 (설치형 모니터링)

https://developer.nvidia.com/dcgm

 

NVIDIA DCGM

Manage and Monitor GPUs in Cluster Environments NVIDIA Data Center GPU Manager (DCGM) is a suite of tools for managing and monitoring NVIDIA datacenter GPUs in cluster environments. It includes active health monitoring, comprehensive diagnostics, system al

developer.nvidia.com

 

- 설정 방법 참조

https://kangwoo.github.io/devops/kubernetes/nvidia-gpu-monitoring/

 

Prometheus를 사용해서 NVIDIA GPU 모니터링 하기

Node의 GPU 모니터링 하기prometheus를 사용해서 노드들의 매트틱을 수집하고 있다면, 아마 node-exporter를 사용하고 있을 것이다.NVIDIA에서는 dcgm-exporter라는 GPU 매트릭 출력용 이미지를 제공하고 있다.

kangwoo.github.io

 

 

 

 

 

 

 

amd_smi_exporter

: AMD 그래픽카드에 대한 메트릭을 수집하는 모니터링 에이전트

 

- amd_smi_exporter

https://github.com/amd/amd_smi_exporter

 

GitHub - amd/amd_smi_exporter: The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU metrics to the Prometheus server.

The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU metrics to the Prometheus server. - GitHub - amd/amd_smi_exporter: The AMD SMI Exporter exports AMD EPYC CPU & Datacenter GPU m...

github.com

 

300x250
728x90

'InfraStructure > Prometheus' 카테고리의 다른 글

[프로메테우스] exporter의 개념과 종류  (0) 2023.06.06
Prometheus 란?  (0) 2022.08.16