banner edicion impresa

Monitor Más Monitor


Los problemas para disipar las GPU de NVIDIA y AMD

Los problemas para disipar las GPU de NVIDIA y AMD
Tanto NVIDIA como AMD tienen unas tolerancias altas a los errores

Publicación:06-01-2021
++--

Seguro que nos hemos preguntado cómo es posible que con un mismo modelo exacto e idéntico de GPU estas consiguen temperaturas y sonoridad diferentes.

¿No deberían ser iguales a misma temperatura ambiente y humedad relativa? La teoría falla, ya que en la práctica hay muchos problemas a solventar que influyen en estos parámetros finales, entre los que se encuentran la curvatura de los dies de AMD y NVIDIA. ¿Acaso no son totalmente rectos estando hechos de silicio?

Con el aumento de calor y consumo que están teniendo tanto las GPUs de AMD RX 6000 como las RTX 3000 de NVIDIA, los fabricantes están teniendo muchos problemas para mantener las temperaturas y ruido a niveles bajos y estables. Se supone que con la precisión que tiene la industria a la hora de fabricar los chips evita errores tan vulgares como las curvaturas en los mismos, pero la realidad es totalmente distinta y a mayor tamaño más tolerancia de fallos.

Las RTX de NVIDIA con tolerancias mayores que Turing

No hay informes reales de las nuevas RX 6000, son demasiado nuevas, pero el tamaño de las matrices de AMD nos hace pensar que los problemas van a ser muy parecidos, principalmente porque ni TSMC ni Samsung son tan distintos a la hora de fabricar las obleas.

Siempre tenemos en mente la perfección de los procesos de fabricación, pero no solemos tener en cuenta el resto de factores, porque aunque el chip sale de uno de estos dos fabricantes luego tiene que ser incluido en lo que se llama «Package«.

El proceso es simple: se suelda y ahí es donde vienen los problemas. Partimos de la base como hemos dicho de que el silicio no es perfecto, pero casi. El corte de las obleas se realiza con una precisión extremadamente alta, pero la unión al package logra que haya diferencias de altura.

¿De cuánta altura estamos hablando? Pues de unas distancias realmente irrisorias para el común de los mortales, pero que a los ingenieros de los AIB les trae de cabeza. Hay que recalcar que esto no es algo exclusivo de las RTX 3000 o las RX 6000, sino que se produce en cualquier chip, incluidos los procesadores, solo que en el caso de estas últimas tarjetas gráficas por el tamaño del die, las diferencias son más palpables.

Para probar la curvatura de un chip se establece por norma una temperatura media de 20º C y se usa un escáner 3D que saca un mapa topográfico de la superficie. ¿Cuánta distancia habrá desde el punto más plano hasta el más alto?

Tanto NVIDIA como AMD tienen unas tolerancias altas a los errores

En el caso de ejemplo que nos ocupa se ve como la curvatura de la matriz es de 0,068 mm, pero se pueden encontrar chips con tolerancias mayores y aun así están dentro de lo que NVIDIA considera como apto para el GA102 (chip de la imagen).

La imagen inferior muestra precisamente una curvatura de nada menos que 0,08 mm, lo cual sigue estando dentro de la especificación, pero es un reto para los que diseñan bloques o disipadores. El problema de esto es que las deformaciones se producen en las esquinas por norma general, dejando un escalón mucho mayor en ciertas partes del chip en contacto con el disipador.

En el ejemplo inferior se ve perfectamente cómo en una esquina el die toca con lo que sería el disipador, representado por el rectángulo negro y siendo perfectamente plano, lo cual nos dejaría más del doble de distancia en la esquina contraria si fuese a nivel: 0,156 mm.

Si esto ya es bastante, en este aspecto NVIDIA especifica un rango de tolerancia de hasta 0,3 mm en distintos puntos del PCB y chip, por lo que hablamos de una auténtica barbaridad de GAP que lógicamente no debería de producirse si queremos un mínimo contacto.

Pero es que si se analiza un PCB en conjunto se ve perfectamente cómo las diferencias de altura son constantes y casi no hay zonas perfectamente planas. En la imagen inferior solo lo pintado de color verde indica 0,00 mm de diferencia, es decir, rectitud total.

Imaginemos que tenemos un GAP de 0,2 o 0,3 mm en distintas partes del PCB o chip, ¿qué va a ocurrir como daño colateral? Pues que el disipador y el PCB van a tener dicha distancia en algún punto, por lo que a la hora de atornillarlo vamos a forzar el PCB en ese punto. ¿La solución? Bueno, es simplemente paliativa y no hay mucho más que hacer: usar thermal pads y una pasta térmica muy densa.

Es la forma más barata y simple de corregir el problema, pero lógicamente implica perder muchos vatios de calor por simple mal contacto. A mayor sea el grosor de lo pad térmicos peor rendimiento tienen y por ende lo que refrigeren tendrá peor temperatura. Debido a esto los fabricantes ya no usan por norma un disipador para todos los componentes, sino que tienen algunos específicos aparte del propio disipador.

Un midplate, por ejemplo, es un dispositivo intermedio que fija las VRAM y en algunos casos los MOSFET, dejando la GPU solo para los cuatro tornillos del bloque principal del disipador y permitiendo un mejor acople. Por desgracia, esto no sucede en bloques de agua por ejemplo, donde todo es macizo y de una sola pieza, lo cual trae de cabeza a los ingenieros de refrigeración líquida por esas tolerancias que cada vez amplían más y más el rango.

Un caso muy sonado de este problema fue el de ASUS y AMD, donde sus GPUs se calentaban bastante por el simple hecho de que la marca se guió por las recomendaciones de AMD para las alturas. El resultado todos los sabemos: nuevas arandelas para maximizar la presión, puesto que ASUS había ajustado todo con las tolerancias de AMD, pero en la práctica el disipador apenas tocaba y la GPU se disparaba en temperatura.

O simplemente el caso del thermalpad de grafito de 45 vatios de Hitachi para las Radeon VII por ejemplo, donde las diferencias de altura con las HBM2E hacían que el uso de pasta térmica quedara en desuso.

En CPU es un poco similar, donde los ISH están cóncavos por un lado e IHS por otro, los die están soldado en su mayoría y por lo tanto la tolerancia a fallos es mayor.



« Especial »