Recopilación de métricas de GPU NVIDIA
Puede utilizar el agente de CloudWatch para recopilar métricas de GPU NVIDIA de los servidores Linux. Para configurar esta acción, agregue una sección de nvidia_gpu
en la sección de metrics_collected
del archivo de configuración del agente de CloudWatch. Para obtener más información, consulte Sección de Linux.
Además, la instancia debe tener instalado un controlador NVIDIA. Los controladores de NVIDIA están preinstalados en algunas Imágenes de máquina de Amazon (AMI). De lo contrario, puede instalar el controlador de forma manual. Para obtener más información, consulte Instalar los controladores NVIDIA en instancias de Linux.
Se pueden recopilar las siguientes métricas. Todas estas métricas se recopilan sin Unit
de CloudWatch, pero puede especificar una unidad para cada métrica agregando un parámetro al archivo de configuración del agente de CloudWatch. Para obtener más información, consulte Sección de Linux.
Métrica | Nombre de métrica en CloudWatch | Descripción |
---|---|---|
|
|
Porcentaje de tiempo del último periodo de muestra durante el cual se ejecutaban uno o más núcleos en la GPU. |
|
|
Temperatura del núcleo de la GPU en grados Celsius. |
|
|
Último consumo de potencia medido para toda la placa en vatios. |
|
|
Porcentaje de tiempo del último periodo de muestra durante el cual se leía o escribía la memoria global (dispositivo). |
|
|
Porcentaje de velocidad máxima del ventilador con la cual se espera que funcione el ventilador del dispositivo en este momento. |
|
|
Memoria total informada en MB. |
|
|
Memoria utilizada en MB. |
|
|
Memoria libre en MB. |
|
|
Generación de enlaces actual. |
|
|
Ancho de enlace actual. |
|
|
Número actual de sesiones de codificador. |
|
|
Media móvil de los fotogramas de codificación por segundo. |
|
|
Media móvil de la latencia de codificación en microsegundos. |
|
|
Frecuencia actual del reloj de gráficos (sombreador). |
|
|
Frecuencia actual del reloj del multiprocesador de streaming (SM). |
|
|
Frecuencia actual del reloj de memoria. |
|
|
Frecuencia actual de los relojes de video (codificador más decodificador). |
Todas estas métricas se recopilan con las siguientes dimensiones:
Dimensión | Descripción |
---|---|
|
Un identificador único de la GPU en este servidor. Representa el índice de la Biblioteca de administración de NVIDIA (NVML) del dispositivo. |
|
Tipo de GPU. Por ejemplo, |
|
La arquitectura del servidor. |