banner edicion impresa

Monitor Más Monitor


Selene, así se ensambló la séptima supercomputadora mundial


Publicación:18-08-2020


++--

NVIDIA ha detallado el ensamblaje de Selene, la séptima supercomputadora del TOP500 mundial en términos de potencia y la segunda en eficiencia energética según el listado del Green500.

Selene es una supercomputadora singular, ya que utiliza una arquitectura basada en aceleradores de GPU (DGX SuperPOD de NVIDIA) en lugar de diseños basados en procesos de CPU como la gran mayoría de supercomputadoras del Top-500.

En cifras, usa 2.240 GPUs NVIDIA A100 y 560 CPUs AMD Epyc 7742. La aceleradora está equipada con 6.912 núcleos CUDA, 40 GB de memoria dedicada HBM2 y 432 núcleos tensor especializados en tareas de inteligencia artificial, inferencia y aprendizaje profundo. Las CPUs de AMD cuentan con 64 núcleos / 128 hilos de procesamiento nativo. En conjunto, la máquina tiene un rendimiento teórico máximo cercano a los 35.000 teraflops.

Otra de las curiosidades de Selene fue su ensamblaje en plena pandemia por el COVID-19, en solo tres semanas y media con un equipo de seis personas socialmente distanciadas y un pequeño robot. Las supercomputadoras anteriores de NVIDIA tardaron meses en construirse y eran extremadamente difíciles de mantener y actualizar.

Al diseñar Selene, intentaron hacerlo lo más simple y modular posible. Cada uno de los 280 nodos de Selene es un módulo DGX estandarizado que contiene ocho GPUs NVIDIA A100 y dos CPU AMD Epyc. Un puñado de cápsulas se apilan en un archivador unidos en grupos de dieciséis para formar un SuperPOD.

La homogeneidad de la máquina es lo que permitió que se ensamblara tan rápidamente. Se trataba principalmente de mover cada módulo DGX al lugar correcto, conectarlo y comprobar que funcionaba. Cablear una supercomputadora es siempre un trabajo complicado (particularmente si hay que guardar una distancia entre los montadores), pero NVIDIA usó los conmutadores InfiniBand de Mellanox para reducir la cantidad de cables necesarios y al mismo tiempo aumentar el ancho de banda.

La refrigeración por aire acondicionado parte del suelo hacia los SuperPOD con el aire caliente saliendo por la parte posterior. El pequeño equipo de ensamblaje solo necesitó instalarlos en el piso y sellar los módulos para controlar el flujo de aire. La instalación se completa con Trip, un pequeño robot que se puede controlar de forma remota y girar para observar lo que sucede dentro de la instalación.

Selene está trabajando actualmente en alrededor de mil tareas, principalmente orientadas al desarrollo de IA y al entrenamiento de redes neuronales. Una parte de la investigación está entregada a la investigación contra el coronavirus, mientras que otros actores destacados que usan la supercomputadora son Continental para el sector automotriz, Lockheed Martin en el aeroespacial y Microsoft para servicios de computación en la nube. 

por Juan Ranchal



« Especial »