banner edicion impresa

Monitor Más Monitor


AMD confirma error que afecta a los procesadores EPYC Rome

AMD confirma error que afecta a los procesadores EPYC Rome
Tiene que estar funcionando sin interrupciones, es decir, sin ser apagado o reseteado, durante casi tres años para que ocurra este error.

Publicación:06-06-2023
++--

Según AMD, el error se resume tal que así: «los núcleos no podrán salir del estado CC6 (reposo) tras pasar 1.043 días desde el último reinicio del sistema».

La compañía de Sunnyvale ha reconocido un error que afecta a los procesadores AMD EPYC Rome y que, la verdad, resulta tan curioso y tan interesante que no he podido perder la ocasión de contároslo. Antes de nada, les recuerdo que esa generación CPUs está basada en la arquitectura Zen 2 y que, por tanto, ya lleva unos años en el mercado.

Según AMD, el error se resume tal que así: «los núcleos no podrán salir del estado CC6 (reposo) tras pasar 1.043 días desde el último reinicio del sistema». Esto quiere decir que es uno de los núcleos del procesador es incapaz de salir del estado de reposo cuando se utiliza un procesador AMD EPYC Rome de forma ininterrumpida durante 1.044 días, lo que equivale aproximadamente a unos 34 meses.

En la descripción oficial que ha dado AMD podemos ver que el problema ocurre porque la CPU REFCLK cuenta ticks de 10 ns en un entero con signo de 54 bits, y si cuenta un poco más de 9 cuatrillones de estos tics se produce un desbordamiento en un periodo aproximado de 1.043 días.

Una vez que se produce este desbordamiento, los núcleos se quedan atascados para siempre en el modo reposo y se convertirán en «zombis» que no aceptarán ninguna solicitud de interrupción externa que pudiese hacerles salir de dicho modo. La única manera de evitar este error es apagar o reiniciar el sistema para que se resetee el contador y todo vuelva a la normalidad, o deshabilitar el estado CC6, pero siempre antes de que se produzca el fallo.

Lo realmente impresionante de todo esto es que un equipo basado en CPUs AMD EPYC Rome tiene que estar funcionando sin interrupciones, es decir, sin ser apagado o reseteado, durante casi tres años para que ocurra este error.

Dado que estamos hablando de un procesador para servidores esto sería normal desde la perspectiva de la importancia que tiene el uso continuado en este tipo de entornos, pero no debemos olvidarnos de que, al final, también hay que parar para instalar actualizaciones importantes y parches de seguridad, y que estos normalmente obligan a reiniciar el sistema. AMD ha confirmado que no tiene previsto resolver este error.



« Especial »