Nvidia dio a conocer que sólo la refrigeración representa hasta el 40% del consumo de electricidad de un centro de datos de IA, lo que lo convierte en una de las áreas más importantes en las que las mejoras de eficiencia pueden reducir tanto los gastos operativos como las demandas de energía y el uso de agua
Con la tendencia de las fotos recreadas al estilo Ghibli, se ha dado a conocer que los centros de datos de Inteligencia Artificial necesitan grandes cantidades de agua para su refrigeración, ya que tradicionalmente, estos aparatos tecnológicos han dependido de de enfriadores mecánicos que hacen circular aire frío para absorber el calor de los servidores, ayudándolos a mantener condiciones óptimas.
Sin embargo, a medida que los modelos de IA aumentan de tamaño y su uso aumenta, mantener esas condiciones óptimas no solo se vuelve más difícil y costoso, sino que también consume más energía.
En términos prácticos, los centros de datos operaban a 20 kW por rack, las instalaciones de hiperescala actuales pueden soportar más de 135 kW por rack, lo que dificulta enormemente la disipación del calor generado por los racks de alta densidad. Por ello, la empresa tecnológica Nvidia, sabe que para mantener los servidores de IA funcionando al máximo rendimiento, se necesita un nuevo enfoque en términos de eficiencia y escalabilidad.
Una de las soluciones que la compañía ha dado a conocer es la refrigeración líquida, ya que reduce la dependencia de los enfriadores y permite un rechazo del calor más eficiente por lo que impulsa la próxima generación de infraestructura de IA de alto rendimiento y energéticamente eficiente.
NVIDIA GB200 NVL72 y NVIDIA GB300 NVL72 son sistemas de refrigeración líquida a escala de rack diseñados para gestionar las exigentes tareas de inferencia de modelos de lenguaje de gran tamaño con un billón de parámetros. Su arquitectura también está optimizada específicamente para la precisión y el rendimiento del escalado en tiempo de prueba , lo que los convierte en la opción ideal para ejecutar modelos de razonamiento de Inteligencia Artificial y, al mismo tiempo, gestionar eficientemente los costes energéticos y el calor.
Hay que tomar en cuenta que sólo la refrigeración ha representado hasta el 40% del consumo de electricidad de un centro de datos , lo que lo convierte en una de las áreas más importantes en las que las mejoras de eficiencia pueden reducir tanto los gastos operativos como las demandas de energía.
La refrigeración líquida ayuda a reducir los costes y el consumo energético al capturar el calor directamente en la fuente. En lugar de depender del aire como intermediario, la refrigeración líquida directa al chip transfiere el calor en un circuito cerrado del sistema de refrigeración tecnológico.
Este calor se recicla a través de una unidad de distribución de refrigerante mediante un intercambiador de calor líquido-líquido y, finalmente, se transfiere a un circuito cerrado de refrigeración de las instalaciones. Gracias a la mayor eficiencia de esta transferencia de calor, los centros de datos y las fábricas de IA pueden operar eficazmente con agua a temperaturas más altas, lo que reduce o elimina la necesidad de enfriadores mecánicos en una amplia gama de climas.
Los centros de datos gastan un estimado de 1.9 a 2.8 millones de dólares por megavatio (MW) al año , lo que equivale a casi 500 mil dólares en costos anuales de energía y agua para refrigeración. Al implementar el sistema GB200 NVL72 con refrigeración líquida, los centros de datos a hiperescala y las fábricas de IA pueden lograr ahorros de costos hasta 25 veces mayores, lo que se traduce en un ahorro anual de más de 4 millones de dólares para un centro de datos a hiperescala de 50 MW.
Para los operadores de centros de datos y fábricas de IA, esto significa menores costos operativos, métricas de eficiencia energética mejoradas y una infraestructura a prueba de futuro que escala las cargas de trabajo de IA de manera eficiente, sin la huella hídrica insostenible de los métodos de enfriamiento tradicionales.
A medida que aumenta la densidad de cómputo y las cargas de trabajo de IA generan cargas térmicas sin precedentes, los centros de datos y las fábricas de IA deben replantearse cómo disipan el calor de su infraestructura. Los métodos tradicionales de disipación de calor que permitían un escalado predecible basado en CPU ya no son suficientes por sí solos. Hoy en día, existen múltiples opciones para disipar el calor de las instalaciones, pero cuatro categorías principales dominan las implementaciones actuales y emergentes.
Nvidia presenta los métodos clave de enfriamiento en paisajes cambiantes
📌 Enfriadores mecánicos: Los enfriadores mecánicos utilizan un ciclo de compresión de vapor para enfriar el agua, que luego circula por el centro de datos para absorber el calor. Estos sistemas suelen estar refrigerados por aire o por agua, y estos últimos suelen combinarse con torres de refrigeración para disipar el calor. Si bien los enfriadores son fiables y eficaces en diversos climas, también consumen mucha energía. En instalaciones a escala de Inteligencia Artificial, donde el consumo energético y la sostenibilidad son prioridades fundamentales, la dependencia de los enfriadores puede afectar significativamente tanto los costes operativos como la huella de carbono.
📌 Enfriamiento Evaporativo: El enfriamiento evaporativo utiliza la evaporación del agua para absorber y eliminar calor. Esto puede lograrse mediante sistemas directos o indirectos, o diseños híbridos. Estos sistemas son mucho más eficientes energéticamente que los enfriadores, pero conllevan un alto consumo de agua. En grandes instalaciones, pueden consumir millones de galones de agua por megavatio al año. Su rendimiento también depende del clima, lo que los hace menos eficaces en regiones húmedas o con escasez de agua.
📌 Enfriadores de aire: Los enfriadores de aire extraen el calor transfiriéndolo de un circuito cerrado de líquido al aire ambiente mediante grandes serpentines con aletas, similares a los radiadores de un automóvil. Estos sistemas no dependen del agua y son ideales para instalaciones que buscan reducir su consumo o que operan en climas secos. Sin embargo, su eficacia depende en gran medida de la temperatura del aire circundante. En entornos más cálidos, pueden tener dificultades para satisfacer las demandas de refrigeración de alta densidad a menos que se combinen con sistemas informáticos refrigerados por líquido que toleren temperaturas de funcionamiento más altas.
📌 Sistemas de Refrigeración por Bombeo: Estos sistemas utilizan refrigerantes líquidos para transportar el calor desde el centro de datos hasta los intercambiadores de calor exteriores. A diferencia de los enfriadores, estos sistemas no dependen de grandes compresores dentro de las instalaciones y funcionan sin agua. Este método ofrece una solución termodinámicamente eficiente, compacta y escalable, especialmente adecuada para implementaciones en el borde y entornos con escasez de agua. Si bien se requiere una manipulación y monitorización adecuadas del refrigerante, los beneficios en ahorro de energía y agua son significativos.
Cada uno de estos métodos ofrece diferentes ventajas según factores como el clima, la densidad de racks, el diseño de las instalaciones y los objetivos de sostenibilidad. A medida que la refrigeración líquida se generaliza y los servidores se diseñan para funcionar con agua más caliente, se abre la puerta a estrategias de refrigeración más eficientes y respetuosas con el medio ambiente, que reducen el consumo de energía y agua, a la vez que permiten un mayor rendimiento informático.
Los beneficios de la refrigeración líquida
Los innovadores de toda la industria están aprovechando la refrigeración líquida para reducir los costos de energía, mejorar la densidad e impulsar la eficiencia de la IA:
La arquitectura de referencia de Vertiv para servidores NVIDIA GB200 NVL72 reduce el consumo energético anual en un 25%, disminuye los requisitos de espacio en rack en un 75% y disminuye el consumo de energía en un 30%.
La infraestructura de refrigeración líquida de Schneider Electric admite hasta 132 kW por rack, lo que mejora la eficiencia energética, la escalabilidad y el rendimiento general de los centros de datos GB200 NVL72 AI.
Las unidades de distribución de refrigerante líquido-líquido CHx2000 de alta densidad de CoolIT Systems ofrecen una capacidad de refrigeración de 2 MW a una temperatura de aproximación de 5°C, lo que garantiza una gestión térmica fiable para las implementaciones de GB300 NVL72. Además, las placas frías OMNI All-Metal de CoolIT Systems, con tecnología patentada Split-Flow, proporcionan una refrigeración dirigida con una potencia térmica de diseño superior a 4 mil W, a la vez que reducen la caída de presión.
Las soluciones avanzadas de refrigeración líquida de Boyd , que incorporan más de dos décadas de experiencia de la empresa en la industria de la informática de alto rendimiento, incluyen unidades de distribución de refrigerante, circuitos de refrigeración líquida y placas frías para maximizar aún más la eficiencia energética y la confiabilidad del sistema para cargas de trabajo de IA de alta densidad.
Los proveedores de servicios en la nube también están adoptando innovaciones de vanguardia en refrigeración y energía. Los centros de datos de Amazon Web Service de última generación, con soluciones de refrigeración líquida desarrolladas conjuntamente, aumentan la potencia de procesamiento en un 12 % y reducen el consumo de energía hasta en un 46% , manteniendo al mismo tiempo la eficiencia hídrica.
La refrigeración de IA del futuro
A medida que la IA continúa ampliando los límites de la escala computacional, las innovaciones en refrigeración serán esenciales para enfrentar los desafíos de gestión térmica de la era posterior a la Ley de Moore.
NVIDIA está liderando esta transformación a través de iniciativas como el programa COOLERCHIPS, un esfuerzo respaldado por el Departamento de Energía de Estados Unidos para desarrollar centros de datos modulares con sistemas de enfriamiento de última generación que se proyecta que reducirán los costos en al menos un 5% y mejorarán la eficiencia en un 20% con respecto a los diseños tradicionales refrigerados por aire.
En un futuro próximo, los centros de datos deben evolucionar no solo para satisfacer las crecientes demandas de la Inteligencia Artificial, sino también de forma sostenible, maximizando la eficiencia energética e hídrica y minimizando el impacto ambiental. Al adoptar arquitecturas de alta densidad y refrigeración líquida avanzada, la industria está allanando el camino hacia un futuro más eficiente impulsado por la IA.