Recopilación de métricas de GPU NVIDIA - Amazon CloudWatch

Recopilación de métricas de GPU NVIDIA

Puede utilizar el agente de CloudWatch para recopilar métricas de GPU NVIDIA de los servidores Linux. Para configurar esta acción, agregue una sección de nvidia_gpu en la sección de metrics_collected del archivo de configuración del agente de CloudWatch. Para obtener más información, consulte Sección de Linux.

Además, la instancia debe tener instalado un controlador NVIDIA. Los controladores de NVIDIA están preinstalados en algunas Imágenes de máquina de Amazon (AMI). De lo contrario, puede instalar el controlador de forma manual. Para obtener más información, consulte Instalar los controladores NVIDIA en instancias de Linux.

Se pueden recopilar las siguientes métricas. Todas estas métricas se recopilan sin Unit de CloudWatch, pero puede especificar una unidad para cada métrica agregando un parámetro al archivo de configuración del agente de CloudWatch. Para obtener más información, consulte Sección de Linux.

Métrica Nombre de métrica en CloudWatch Descripción

utilization_gpu

nvidia_smi_utilization_gpu

Porcentaje de tiempo del último periodo de muestra durante el cual se ejecutaban uno o más núcleos en la GPU.

temperature_gpu

nvidia_smi_temperature_gpu

Temperatura del núcleo de la GPU en grados Celsius.

power_draw

nvidia_smi_power_draw

Último consumo de potencia medido para toda la placa en vatios.

utilization_memory

nvidia_smi_utilization_memory

Porcentaje de tiempo del último periodo de muestra durante el cual se leía o escribía la memoria global (dispositivo).

fan_speed

nvidia_smi_fan_speed

Porcentaje de velocidad máxima del ventilador con la cual se espera que funcione el ventilador del dispositivo en este momento.

memory_total

nvidia_smi_memory_total

Memoria total informada en MB.

memory_used

nvidia_smi_memory_used

Memoria utilizada en MB.

memory_free

nvidia_smi_memory_free

Memoria libre en MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

Generación de enlaces actual.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

Ancho de enlace actual.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Número actual de sesiones de codificador.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

Media móvil de los fotogramas de codificación por segundo.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

Media móvil de la latencia de codificación en microsegundos.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

Frecuencia actual del reloj de gráficos (sombreador).

clocks_current_sm

nvidia_smi_clocks_current_sm

Frecuencia actual del reloj del multiprocesador de streaming (SM).

clocks_current_memory

nvidia_smi_clocks_current_memory

Frecuencia actual del reloj de memoria.

clocks_current_video

nvidia_smi_clocks_current_video

Frecuencia actual de los relojes de video (codificador más decodificador).

Todas estas métricas se recopilan con las siguientes dimensiones:

Dimensión Descripción

index

Un identificador único de la GPU en este servidor. Representa el índice de la Biblioteca de administración de NVIDIA (NVML) del dispositivo.

name

Tipo de GPU. Por ejemplo, NVIDIA Tesla A100

arch

La arquitectura del servidor.