Radeon Open Compute “ROCm” Stack v3.1 lanzado con RAS para Vega 7nm, compatibilidad con SLURM para una mejor gestión de recursos, pero Navi aún falta

Hardware / Radeon Open Compute “ROCm” Stack v3.1 lanzado con RAS para Vega 7nm, compatibilidad con SLURM para una mejor gestión de recursos, pero Navi aún falta 2 minutos de lectura

AMD Radeon



La nueva versión de Radeon Open Compute o pila 'ROCm' es ahora disponible para descargar. Radeon Open Compute v3.1 trae consigo bastantes características, pero extrañamente, aún falta el soporte para AMD Navi y GFX10.

ROCm, la plataforma universal más aceptada para la computación acelerada por GPU, se encuentra ahora en la versión 3.1. La última actualización de la plataforma modular que permite a los proveedores de hardware crear controladores que admitan el marco ROCm incluye algunas características muy esperadas, como el soporte RAS para Vega de 7nm y el soporte SLURM para GPU AMD. Sin embargo, por razones aún desconocidas, ROCm aún no tiene soporte completo para la arquitectura AMD Navi de próxima generación.

Novedades de Radeon ROCm v3.1:

El cambio más grande y más obvio en la nueva instalación de Radeon ROCm v3.1 está en la estructura del directorio de instalación de ROCm. Una nueva instalación del kit de herramientas ROCm instala los paquetes en el / opt / rocm- carpeta. Anteriormente, los paquetes del kit de herramientas ROCm se instalaban en el / opt / rocm carpeta.



La nueva versión de ROCm ha mejorado el soporte de confiabilidad, accesibilidad y facilidad de servicio (RAS) para las GPU Vega de 7nm. Este trabajo de Vega de 7 nm presumiblemente todavía está bajo el microscopio para el 'Arcturus' basado en Vega el acelerador de cómputo viene este año. El soporte incluye:



  • UMC RAS ​​- HBM ECC (inyección de error incorregible), retiro de página, recuperación de RAS mediante restablecimiento de GPU (BACO)
  • GFX RAS - GFX, MMHUB ECC (inyección de error incorregible), recuperación de RAS mediante restablecimiento de GPU (BACO)
  • PCIE RAS - PCIE_BIF ECC (inyección de error incorregible), recuperación de RAS mediante restablecimiento de GPU (BACO)

Radeon ROCm v3.1 también tiene soporte SLURM para GPU AMD. SLURM o Simple Linux Utility for Resource Management es uno de los sistemas de programación de trabajos y administración de clústeres más preferidos y de fácil uso para clústeres de Linux. Se prefiere SLURM debido a que es de código abierto, tolerante a fallas y altamente escalable.

Este sistema ahora puede interactuar bien con las GPU de AMD. La última versión 20.02.0 de SLURM incluye complementos de AMD que permiten a SLURM detectar y configurar las GPU de AMD automáticamente. También recopila e informa el consumo de energía de los chips gráficos. La compatibilidad con SLURM es una adición útil dado el creciente número de implementaciones de supercomputación que utilizan GPU Radeon y otros clústeres de GPU AMD más grandes.

A pesar de la inclusión de varias funciones, todavía no hay signos de compatibilidad con GFX10 / Navi en ROCm. los Página de GitHub para ROCm se ha actualizado para reflejar todos los cambios, notas de instalación y problemas conocidos.



Etiquetas amd