Comment l’IA est en train de transformer les data centers : puissance, refroidissement et nouvelles architectures
L’essor de l’IA fait exploser la demande en puissance et en GPU. Liquid cooling, racks à 80 kW, nouvelles architectures : comment les data centers s’adaptent.
L’infrastructure qui fait tourner l’IA n’est plus celle des « simples » applications web.
Entre entraînement de modèles géants (LLM, diffusion, agents) et inférence temps réel, les data centers se transforment en profondeur : plus de puissance par rack, refroidissement liquide, nouvelles architectures réseau… et facture énergétique qui explose.
Dans cet article, on décortique comment les besoins en IA font évoluer les data centers et les architectures – et ce que ça veut dire pour les entreprises, les développeurs et les décideurs.
1. Pourquoi l’IA bouscule autant les data centers ?
Les workloads IA n’ont rien à voir avec un site vitrine ou même une appli SaaS classique :
- Entraînement de modèles : on aligne des milliers de GPU sur plusieurs semaines pour avaler des dizaines de milliers de milliards de tokens ou d’images.
- Inférence : on sert des millions de requêtes (chatbots, agents, API, copilots) avec des contraintes de latence très fortes.
- Stockage : datasets massifs, versions de modèles, checkpoints, logs, embeddings… tout explose en volume.
Des analyses de marché estiment que la demande mondiale en capacité de data centers “AI-ready” pourrait croître de plus de 30 % par an d’ici 2030, jusqu’à représenter une majorité de la capacité totale des data centers.
Résultat :
la majorité des nouvelles capacités construites ou modernisées sont déjà pensées d’abord pour les workloads IA.
2. Densité de puissance : du rack à 10 kW au rack à 80–200 kW
Historiquement, un data center « classique » tournait autour de 10 à 15 kW par rack. Avec l’IA, on change d’échelle :
- Les workloads IA poussent vers des densités de 60–120 kW par rack pour supporter des serveurs accélérés (GPU) très rapprochés.
- Certains racks ultra-denses dépassent déjà 80 kW quand on y regroupe plusieurs systèmes GPU haut de gamme.
- Certaines projections parlent de 200 à 250 kW par rack dans les data centers IA les plus extrêmes.
En parallèle, les investissements suivent une courbe délirante :
- Les investissements globaux liés aux data centers se chiffrent déjà en centaines de milliards de dollars par an, en grande partie tirés par l’IA.
- Les hyperscalers (Microsoft, AWS, Google, Meta…) ont plus que quadruplé leurs dépenses data centers entre 2015 et 2022, et la tendance s’accélère encore.
👉 Conséquence :
- l’électricité devient le premier facteur limitant,
- les sites sont choisis en fonction de l’accès à des gigawatts de puissance électrique et d’énergie bas carbone,
- et les architectes doivent repenser totalement l’alimentation, la distribution et la redondance électrique.
3. De l’air au liquide : la révolution du refroidissement
Ventiler plus fort ne suffit plus. Quand un seul rack peut consommer 80 kW, l’air n’arrive plus à évacuer la chaleur de manière efficace.
3.1. Le refroidissement liquide devient la norme pour l’IA
On voit déjà trois grandes approches :
- Direct-to-chip (D2C)
- Des plaques froides (cold plates) viennent en contact direct avec CPU / GPU.
- Le liquide circule dans un circuit fermé (via des CDUs – coolant distribution units).
- Approche privilégiée pour les baies GPU modernes dans les nouveaux data centers IA.
- Immersion liquide (single-phase ou two-phase)
- Les serveurs sont plongés dans un fluide diélectrique.
- Idéal pour des densités extrêmes, mais plus complexe à déployer à grande échelle.
- Systèmes hybrides air + liquide
- Une partie de la chaleur est gérée par liquide, le reste par l’air.
- Permet de migrer progressivement sans refaire tout le bâtiment.
Les racks IA passent déjà de 12 kW “classiques” à 80 kW et plus, et le refroidissement liquide permet d’atteindre ces densités en consommant moins d’énergie que les ventilateurs haute vitesse.
3.2. L’IA pour… refroidir l’IA
Ironie sympa :
- des entreprises utilisent déjà l’IA pour optimiser le refroidissement, en ajustant en temps réel la répartition des workloads, la vitesse des pompes, les consignes de température, etc.
Résultat :
- baisse du PUE (Power Usage Effectiveness),
- moins de risques de hotspots,
- meilleure utilisation des GPU (moins de throttling thermique).
4. Nouvelles architectures : du “serveur” au “cluster GPU”
Avec l’IA, le centre de gravité de l’infra se déplace :
4.1. Le GPU et les superchips au centre du jeu
Les architectures modernes s’articulent autour de :
- Clusters de GPU (H100, H200, Blackwell, MI300, etc.) montés en baies spécialisées.
- Superchips CPU+GPU comme les plateformes de type Grace Hopper, qui combinent CPU et GPU avec une interconnexion dédiée offrant une bande passante bien supérieure au PCIe.
Ces systèmes sont pensés pour :
- entraîner des modèles géants sur des milliers de GPU en parallèle ;
- minimiser la latence entre GPU, CPU et mémoire (NVLink, NVSwitch, etc.) ;
- optimiser l’accès aux données (stockage local NVMe, réseaux 400/800 Gbit/s).
4.2. Le réseau devient une “backbone IA”
Pour entraîner un LLM de plusieurs centaines de milliards de paramètres, il faut :
- des liens très haut débit (400G, 800G) entre nœuds,
- des fabrics réseaux (InfiniBand, Ethernet RoCE) avec des latences ultra-faibles,
- des topologies type fat-tree, dragonfly, 3D torus pour limiter la congestion.
On ne parle plus de « serveurs individuels », mais de pods IA, superpods ou même AI campus – des blocs de calcul spécialisés, assemblés comme des Lego à l’échelle d’un bâtiment.
5. Du data center généraliste au “AI campus”
On voit se dessiner trois grands modèles :
- Hyperscalers IA
- Microsoft, Google, AWS, Meta… mais aussi de nouveaux acteurs comme certains opérateurs de colocation spécialisés IA.
- Ces acteurs construisent des campus multi-GW dédiés à l’IA, avec une part croissante de liquid cooling et d’architectures GPU-first.
- Hubs régionaux d’infrastructure IA
- Des pays et régions misent sur des data centers IA pour attirer startups et industriels (projets géants en Europe, en Asie, au Moyen-Orient…).
- Edge & on-prem AI
- Pour des raisons de latence, confidentialité ou souveraineté, certaines entreprises déploient des mini-clusters GPU sur site (hôpitaux, usines, banques, administrations).
Dans tous les cas, la logique est la même :
la capacité IA devient une infrastructure critique, au même titre que l’électricité ou le réseau.
6. Dimension énergétique et durable : l’éléphant dans la salle serveur
Pas de data center IA sans énergie… beaucoup d’énergie.
- Les clusters IA à grande échelle consomment autant qu’une ville de dizaines de milliers de foyers pour l’entraînement d’un unique gros modèle.
- Les investissements se déplacent vers des régions pouvant fournir de la puissance électrique bas carbone (nucléaire, hydro, éolien/solaire couplés à du stockage).
Les grands acteurs mettent en avant :
- la réduction du PUE,
- la réutilisation de chaleur fatale (chauffage urbain, piscines, serres),
- la réduction de l’usage d’eau ou l’utilisation d’eaux non potables,
- les engagements “carbon-free 24/7” sur certains sites.
Mais la réalité, c’est que :
- plus l’IA se généralise, plus la demande énergétique augmente,
- et qu’on ouvre un vrai débat de sobriété numérique, d’optimisation des modèles et de priorisation des usages.
7. Ce que ça change concrètement pour les entreprises
Même si tu ne construis pas ton propre data center, ces évolutions ont un impact direct sur toi.
7.1. Cloud, colocation ou on-prem IA ?
- Cloud public :
- plus simple pour démarrer,
- mais coûteux pour des entraînements massifs et parfois limité par la disponibilité de GPU.
- Colocation IA-ready :
- tu loues des baies dans des data centers spécialisés IA,
- tu gardes la maîtrise de ton hardware (GPU, superchips),
- tu profites d’une infra électrique et de refroidissement dimensionnée pour.
- On-prem (usine, labo, banque…) :
- pertinent si tu as des données très sensibles ou des contraintes fortes de latence ;
- mais il faut assumer l’investissement : puissance électrique, refroidissement, compétences, maintenance.
7.2. Points de vigilance pour un projet IA “infra-aware”
Si tu bosses sur un produit ou une plateforme IA, pose-toi au moins ces questions :
- Entraînement ou inférence ?
- Les contraintes d’infra, de coût et de latence ne sont pas les mêmes.
- Taille des modèles et optimisation
- Peux-tu utiliser des modèles plus compacts, quantifiés, ou spécialisés ?
- Portage vers des architectures plus efficaces (GPU, NPU, ASIC) ?
- Localisation des workloads
- Tout dans le cloud US, ou une partie en Europe pour le RGPD / souveraineté ?
- Edge vs cloud pour la latence (caméras, robots, IoT, retail…).
- Empreinte énergétique & image de marque
- Tes clients vont de plus en plus regarder l’empreinte carbone de ton IA.
- Choisir un data center alimenté en énergie bas carbone peut devenir un argument commercial.
8. En résumé
- Les workloads IA font exploser la densité de puissance, avec des racks qui passent de 10–15 kW à 60–120 kW, voire plus de 200 kW dans les scénarios extrêmes.
- Le refroidissement liquide devient indispensable pour gérer cette densité et limiter la consommation énergétique des systèmes de refroidissement.
- Les architectures évoluent vers des clusters GPU / superchips, connectés par des fabrics réseau très haut débit, dans des AI campus de plusieurs centaines de mégawatts.
- L’énergie et la durabilité deviennent des critères structurants : accès à une puissance électrique massive, bas carbone, optimisation du PUE, réutilisation de chaleur.
- Pour les entreprises, tout projet IA sérieux doit être pensé avec l’infra en tête : disponibilité des GPU, coûts, localisation des workloads, contraintes réglementaires et empreinte carbone.
L’IA n’est pas qu’un sujet de modèles et d’API : c’est aussi une histoire de câbles, de kilowatts, d’eau et d’acier.
Comprendre l’infrastructure, c’est se donner les moyens de construire des projets IA durables, performants… et réalistes.
9. Sources
- Uptime Institute – Global Data Center Survey 2024
https://datacenter.uptimeinstitute.com/rs/711-RIA-145/images/2024.GlobalDataCenterSurvey.Report.pdf - McKinsey – AI power: Expanding data center capacity to meet growing demand (2024)
https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/ai-power-expanding-data-center-capacity-to-meet-growing-demand - McKinsey – How data centers and the energy sector can sate AI's hunger for power (2024)
https://www.mckinsey.com/industries/private-capital/our-insights/how-data-centers-and-the-energy-sector-can-sate-ais-hunger-for-power - International Energy Agency – Energy and AI – Executive summary
https://www.iea.org/reports/energy-and-ai/executive-summary - Columbia Business School – The Year of the Data Center (2025)
https://business.columbia.edu/milstein-center-research-lab/milstein-center/year-data-center - Hanwha Data Centers – Hyperscale data centers: energy challenges and sustainable solutions (2025)
https://www.hanwhadatacenters.com/blog/hyperscale-data-centers-energy-challenges-and-sustainable-solutions/ - Equinix – AI’s engine room: Inside the high-performance data centers powering the future (2025)
https://blog.equinix.com/blog/2025/10/08/ais-engine-room-inside-the-high-performance-data-centers-powering-the-future/ - MarketsandMarkets – Hyperscale Data Center Market Size, Share & Forecast 2024–2030
https://www.marketsandmarkets.com/Market-Reports/hyperscale-data-center-market-26026183.html - NVIDIA – GB200 NVL72 (fiche officielle architecture Blackwell & liquid cooling)
https://www.nvidia.com/en-us/data-center/gb200-nvl72/ - IntuitionLabs – NVIDIA HGX Data Center Physical Requirements (H100, densités, consommation)
https://intuitionlabs.ai/articles/nvidia-hgx-data-center-requirements - Uvation – NVIDIA DGX H200 Power Consumption: What You Absolutely Must Know
https://uvation.com/articles/nvidia-dgx-h200-power-consumption-what-you-absolutely-must-know - SemiAnalysis – H100 vs GB200 NVL72 Training Benchmarks (2025)
https://newsletter.semianalysis.com/p/h100-vs-gb200-nvl72-training-benchmarks - Adrian Cockcroft – Deep dive into NVIDIA Blackwell benchmarks
https://adrianco.medium.com/deep-dive-into-nvidia-blackwell-benchmarks-where-does-the-4x-training-and-30x-inference-0209f1971e71 - The Guardian – Boom or bubble? Inside the $3tn AI datacentre spending spree (2025)
https://www.theguardian.com/technology/2025/nov/02/global-datacentre-boom-investment-debt - Tom’s Hardware – AI buildouts need $2 trillion in annual revenue to sustain growth… (synthèse rapport Bain & Company)
https://www.tomshardware.com/tech-industry/bain-says-compute-demand-is-outpacing-capital - Business Insider – OpenAI’s Stargate project will cost $500 billion and require enough energy to power a whole city (2025)
https://www.businessinsider.com/openai-stargate-project-data-center-power-gigawatt-chatgpt-ai-2025-10 - TechBlog (IEEE ComSoc) – AI Data Center Boom Carries Huge Default and Demand Risks (2025)
https://techblog.comsoc.org/2025/09/21/ai-data-center-boom-carries-huge-default-and-demand-risks/ - Cargoson – Number of Data Centers by Country (November 2025) – données globales & CapEx hyperscalers
https://www.cargoson.com/en/blog/number-of-data-centers-by-country - LBNL – 2024 United States Data Center Energy Usage Report
https://eta-publications.lbl.gov/sites/default/files/2024-12/lbnl-2024-united-states-data-center-energy-usage-report_1.pdf - DataCentre Magazine – The hyperscale revolution reshaping data centre architecture (2025)
https://datacentremagazine.com/news/the-hyperscale-revolution-reshaping-data-centre-architecture