Infrastructure GPU pour l'IA : dimensionner, héberger, refroidir

La réalité du terrain

Monter une infrastructure GPU pour de l''IA, ce n''est pas empiler des cartes graphiques dans un rack et lancer un torchrun. Entre la consommation électrique, le refroidissement, le réseau inter-GPU et le coût pur, les contraintes sont d''un autre ordre que ce qu''on rencontre sur du compute classique.

En clair : si vous dimensionnez vos GPU comme vous dimensionnez vos VM, vous allez droit dans le mur. Ce guide couvre les choix concrets auxquels vous serez confronté.

Le choix du GPU : H100, L40S ou RTX

NVIDIA H100 SXM5 : la référence training

Le H100, architecture Hopper, reste en 2026 le GPU de référence pour le training de modèles. Les specs qui comptent :

80 Go de HBM3 avec 3,35 To/s de bande passante mémoire
1 979 TFLOPS en FP8 (Tensor Cores 4e génération)
NVLink 4e gen : 900 Go/s de bande passante GPU-to-GPU
TDP : 700 W (variante SXM5)

Le H100 est conçu pour le multi-GPU. Un noeud DGX H100 embarque 8 GPU interconnectés via NVLink et NVSwitch, avec une bande passante agrégée de 3,6 To/s entre les 8 cartes. C''est ce qui permet le data parallelism et le tensor parallelism à l''échelle.

Le coût : comptez environ 25 000 a 30 000 dollars par carte en 2026, en baisse par rapport aux 40 000 dollars de 2024. En location cloud, on tourne autour de 2 a 3 dollars de l''heure par GPU.

NVIDIA L40S : le compromis inference/fine-tuning

La L40S, architecture Ada Lovelace, s''est imposée comme l''alternative pragmatique :

48 Go de GDDR6 avec 864 Go/s de bande passante
362 TFLOPS en FP8
TDP : 350 W (format PCIe standard)
Pas de NVLink : communication inter-GPU via PCIe uniquement

La réalité du terrain : la L40S offre environ 40 % des performances d''inference du H100 pour 30 % du coût. Elle se monte dans un serveur PCIe standard (pas besoin de châssis spécialisé), se refroidit par air dans la plupart des cas, et convient parfaitement pour de l''inference, du fine-tuning et des workloads mixtes.

Pour du capacity planning réaliste : une L40S suffit pour servir un LLM de 30 milliards de paramètres en INT4. Un H100 est nécessaire dès que vous dépassez 70 milliards de paramètres ou que vous faites du training distribué.

RTX 6000 Ada : le choix dev/prototype

La RTX 6000 Ada (48 Go GDDR6, 91 TFLOPS FP32) est pertinente pour du prototypage et du dev, mais elle n''a pas sa place dans un rack de production IA. Les raisons :

Pas de support vGPU natif en datacenter (licence NVIDIA AI Enterprise requise)
Refroidissement par ventilateur conçu pour un poste de travail, pas pour un rack dense
Rapport performance/watt inférieur à la L40S en workloads IA

En clair : la RTX 6000 pour le bureau de vos data scientists, la L40S pour la production.

VRAM : le facteur limitant numéro un

La taille mémoire du GPU détermine directement la taille du modèle que vous pouvez exécuter. Voici les ordres de grandeur réels :

Modèle	Paramètres	VRAM minimum (FP16)	VRAM minimum (INT4)
Mistral 7B	7B	14 Go	4 Go
Llama 3 70B	70B	140 Go	40 Go
Llama 3 405B	405B	810 Go	220 Go

Pour un Llama 3 70B en FP16 : il faut 2 H100 (160 Go de VRAM agrégée) ou 3 L40S (144 Go). En quantification INT4, un seul H100 suffit.

Le piège courant : ne compter que les poids du modèle. En réalité, il faut ajouter les KV-cache (proportionnel à la longueur du contexte et au batch size), les activations intermédiaires (pour le training) et l''overhead du framework. Prévoyez une marge de 20 a 30 % au-delà des poids bruts.

Réseau : InfiniBand vs RoCE

Pour du training distribué multi-noeud, le réseau entre les serveurs GPU est aussi critique que les GPU eux-mêmes.

InfiniBand NDR (400 Gb/s)

C''est le standard pour les clusters HPC/IA sérieux. NVIDIA propose sa gamme Quantum-2 (switches NDR 400 Gb/s par port). Avantages :

Latence ultra-faible : environ 0,5 microsecondes
RDMA natif : les GPU communiquent directement via GPUDirect RDMA sans passer par le CPU
Congestion management : les protocoles InfiniBand gèrent nativement la congestion réseau

Le coût : 2 000 a 5 000 dollars par carte HCA par noeud, plus 20 000 a 100 000 dollars par switch selon le nombre de ports. Un cluster de 32 noeuds en InfiniBand NDR, c''est facilement 500 000 dollars rien que pour le réseau.

RoCE v2 (RDMA over Converged Ethernet)

RoCE permet du RDMA sur de l''Ethernet classique (100/200/400 GbE). C''est moins performant qu''InfiniBand, mais ça fonctionne sur l''infrastructure réseau existante.

La réalité du terrain : pour des clusters de moins de 16 noeuds, RoCE v2 sur du 200 GbE est un compromis acceptable. Au-delà, InfiniBand devient nécessaire pour éviter que le réseau ne devienne le goulot d''étranglement du training.

Pour de l''inference pure (pas de gradient sync entre noeuds), un réseau 25 GbE standard suffit largement.

Refroidissement : le mur thermique

C''est le sujet que tout le monde sous-estime. Un rack de 8 H100 consomme 5,6 kW rien que pour les GPU, sans compter les CPU, la mémoire, le stockage et le réseau. Un noeud DGX H100 complet tire 10,2 kW. Quatre noeuds par rack, et vous êtes à plus de 40 kW par rack.

Air cooling : la limite est atteinte

Le refroidissement par air classique plafonne autour de 15 a 20 kW par rack dans un datacenter standard. Pour des racks GPU denses, c''est insuffisant. Les solutions en rear-door heat exchangers (RDHX) repoussent la limite à 30 a 35 kW, mais au prix d''une plomberie supplémentaire.

Liquid cooling : la nouvelle norme

Le refroidissement liquide direct-to-chip (DLC) est devenu le standard pour les déploiements GPU denses. Le principe : des plaques froides fixées directement sur les GPU et les CPU, alimentées par un circuit d''eau tiède (30 a 45 degres Celsius).

Avantages concrets :

Densité : permet de monter à 80 a 100 kW par rack
Efficacité : PUE de 1,1 a 1,15 contre 1,3 a 1,5 en air cooling
Silence : suppression des ventilateurs hautes performances
Fiabilité : température GPU plus stable, ce qui rallonge la durée de vie des composants

Le marché du liquid cooling datacenter explose : de 4,9 milliards de dollars en 2024 a une projection de 21,3 milliards en 2030 (CAGR de 27,6 %). Ce n''est pas une mode, c''est une nécessité physique.

Immersion cooling : pour les cas extrêmes

L''immersion totale (serveurs plongés dans un fluide diélectrique) permet de dépasser les 100 kW par rack. C''est pertinent pour les clusters de training massifs, mais les contraintes de maintenance (extraire un serveur d''un bain de fluide pour remplacer un disque) et le coût du fluide limitent encore l''adoption.

Dimensionnement électrique : le vrai sujet

Un point souvent ignoré dans les projets d''infrastructure IA : la disponibilité électrique du datacenter.

La réalité du terrain : un rack de 4 noeuds DGX H100 tire plus de 40 kW. Avec le refroidissement, le réseau et le stockage, comptez 50 a 60 kW par rack. Multipliez par 10 racks pour un cluster modeste, et vous êtes à 500 a 600 kW.

La plupart des datacenters existants n''ont tout simplement pas cette capacité disponible par rack. Vérifiez la puissance allouable avant de signer un contrat d''hébergement. Vérifiez aussi la redondance électrique : un cluster de training qui s''arrête en plein job à cause d''une coupure, c''est des heures de calcul (et des milliers d''euros) perdus.

Le stockage : ne pas oublier le data pipeline

Un cluster GPU affamé en données est un cluster GPU qui gaspille du compute. Le stockage doit fournir :

Débit séquentiel : minimum 10 Go/s pour alimenter 8 GPU en parallèle (datasets d''images, tokens pré-traités)
IOPS aléatoires : important pour le shuffling des datasets et le checkpointing
Capacité : les datasets de training modernes (Common Crawl, The Pile, LAION) se comptent en dizaines de To

En pratique : du NVMe local pour le cache chaud, du stockage parallèle (GPFS, Lustre, BeeGFS) pour le dataset complet. Le réseau de stockage doit être séparé du réseau GPU (InfiniBand ou Ethernet dédié).

Pour une démarche green IT cohérente, le stockage tiédi par les GPU peut servir de source de chaleur pour du préchauffage d''eau ou du chauffage de locaux.

GPU passthrough en virtualisation

Si vous opérez sur Proxmox avec du GPU passthrough, quelques points d''attention :

Le passthrough PCIe fonctionne bien pour les L40S et RTX en mode single-GPU par VM
Pour les H100 SXM5, le passthrough est rarement pertinent : vous perdez le bénéfice de NVLink/NVSwitch
NVIDIA vGPU (avec licence) permet le partage d''un GPU entre plusieurs VM, utile pour l''inference multi-tenant
SR-IOV est supporté sur les GPU datacenter récents et offre de meilleures performances que vGPU pour l''isolation

Recommandation

Pour un premier projet IA en datacenter :

Inference/fine-tuning : 2 a 4 L40S en serveur PCIe standard, refroidissement air, réseau 25 GbE. Budget : 30 000 a 50 000 euros.
Training sérieux (modèles de plus de 13B) : noeud DGX H100 ou équivalent OEM, liquid cooling, InfiniBand NDR. Budget : 300 000 euros et plus.
Prototype/dev : RTX 6000 Ada en poste de travail, ou L40S en cloud à la demande.

Ne partez pas sur du H100 si votre use case est de l''inference. C''est du gaspillage. Et ne partez pas sur du L40S si vous comptez entraîner des modèles de plus de 70B : vous allez perdre du temps et de l''argent.