BGO : Perspectives

Entraînement versus inférence : les deux facettes de l’IA qui façonneront la prochaine génération de centres de données

Rédigé par BGO | 4 nov. 2025 15:30:00

1.  Les deux phases de l’intelligence artificielle 

Le fonctionnement des systèmes d’intelligence artificielle (IA) suit deux phases distinctes : l’entraînement et l’inférence. Bien que ces phases utilisent du matériel et des données semblables, elles ont des objectifs très différents et nécessitent des centres de données conçus différemment. 

Entraînement : apprendre au modèle 

L’entraînement de l’IA consiste à apprendre à un modèle à reconnaître des tendances dans les données. C’est comme montrer à un enfant des milliers d’images de chats et de chiens jusqu’à ce qu’il sache faire la différence entre les deux. En pratique, l’entraînement implique de faire passer des milliards d’exemples de textes, d’images ou de vidéos dans des réseaux neuronaux et d’ajuster des millions de paramètres jusqu’à ce que le système puisse effectuer des prédictions exactes.

Ce processus requiert énormément de calculs. L’entraînement d’un grand modèle tel que GPT-4, Claude ou Gemini peut nécessiter des dizaines de milliers de processeurs graphiques fonctionnant sans arrêt pendant des semaines. Ces grappes ont besoin des éléments suivants :

  • Des armoires de grande capacité (allant de 80 à 120 kW par armoire)
  • Une bande passante interconnectée massive
  • Un système de refroidissement évolué, généralement par liquide
  • Un accès à une énergie renouvelable fiable et peu coûteuse

Comme l’entraînement ne nécessite pas une faible latence, les centres de données axés sur l’entraînement sont généralement situés dans des endroits où l’électricité est abondante et bon marché. Jusqu’à présent, la majorité des investissements dans ces grands campus d’entraînement ont été faits en Amérique du Nord, mais les restrictions en matière de disponibilité énergétique poussent toutefois les géants de la technologie à chercher des campus « prêts à livrer » en EMOA et en APJ pour répondre à l’augmentation rapide de la demande en capacité d’entraînement prévue au cours des trois prochaines années.

Inférence : utiliser ce qui a été appris

Une fois formé, le modèle peut effectuer de l’inférence, c’est-à-dire utiliser ses connaissances pour faire des prédictions ou générer des réponses. Individuellement, les tâches d’inférence nécessitent beaucoup moins de ressources que les tâches d’entraînement, mais elles ont lieu des milliards de fois par jour. Alors qu’un nouveau modèle peut être entraîné seulement une fois aux quelques mois, les tâches d’inférence se produisent en continu, et ce, pour des millions d’utilisateurs.

En termes simples :

  • Entraînement = construire le cerveau
  • Inférence = utiliser le cerveau

 

2. L’influence des deux phases sur la demande en centres de données 

La montée de l’IA redessine l’investissement mondial dans les centres de données. Pourtant, l’entraînement et l’inférence ont des besoins différents.

Centres de données d’entraînement : supergrappes d’IA

Les centres d’entraînement sont vastes, centralisés et énergivores. Ils sont conçus pour gérer des calculs surtout parallèles avec des processeurs graphiques et un réseau de premier ordre. Ces sites nécessitent des centaines de mégawatts et coûtent des milliards de dollars à construire. Ils sont axés sur l’efficacité par modèle, pas la proximité aux utilisateurs.

Centres de données d’inférence : répartis et évolutifs 

De leur côté, les centres de données d’inférence sont plus petits, mais beaucoup plus nombreux. Ils doivent répondre aux utilisateurs en l’espace de quelques millisecondes, ce qui implique qu’ils doivent être proches des données des utilisateurs dans des grappes infonuagiques régionales ou sur place. 

Une armoire d’inférence type peut consommer de 12 à 50 kW, mais compte tenu du nombre de déploiements beaucoup plus élevé nécessaire pour traiter l’usage mondial, la demande totale devient immense. 

À court terme (2025-2028), les dépenses en immobilisations seront dominées par l’entraînement, alors que Stargate, Microsoft, Google, Amazon et NVIDIA construisent des « supergrappes d’IA ».

Mais à la fin des années 2020, l’inférence deviendra le principal moteur de croissance – en heures de calcul, en nombre de sites et en consommation d’énergie totale.

Bien que l’entraînement reste concentré sur quelques sites gigantesques, l’inférence se produit partout. Toutes les requêtes adressées à des robots conversationnels, tous les courriels et traductions générés par l’IA et toutes les décisions de conduite automatisée représentent des tâches d’inférence.

Même si chaque inférence produit moins de calculs, le volume total des requêtes surpassera un jour celui de l’entraînement. L’inférence finira donc par consommer plus d’énergie au total que l’entraînement, malgré ses armoires plus petites. Elle fonctionnera en temps réel, près des applications et des données des utilisateurs. Comme on prévoit que 70 % des applications d’entreprise seront infonuagiques d’ici 2028, la majorité des centres d’inférence seront colocalisés avec des grappes infonuagiques à haute disponibilité.

D’autres prendront la forme de centres de données régionaux ou en périphérie plus petits – parfois de seulement quelques mégawatts chacun – construits à proximité de tours 5G, de campus d’entreprise ou de fournisseurs de service Internet locaux pour assurer une latence ultrafaible.

Entraînement contre inférence : comparaison rapide

Caractéristique

Centres de données d’entraînement

Centres de données d’inférence

Objectif

Créer et affiner des modèles d’IA

Utiliser des modèles entraînés pour générer des prédictions et des réponses

Taille

Énormes (sites de 100 à 500 MW) 

Petits, mais nombreux (sites de 1 à 50 MW) 

Emplacement

Régions éloignées où l’énergie est abondante

Près des utilisateurs

Exigence en matière de latence

Faible priorité

Critique (< 50 ms)

Exigence en matière d’énergie

De 80 à 120 kW par armoire

De 12 à 50 kW par armoire

Croissance

Forte jusqu’en 2028

Rapide après 2030

Part à long terme (après 2030)

Sites moins nombreux, mais énormes

 Sites nombreux et demande totale plus importante

 

Conclusion

Au cours des trois prochaines années, le monde continuera d’investir des milliards de dollars dans d’énormes grappes d’entraînement, ces superordinateurs qui créent la prochaine génération de modèles de base.

Mais lorsque ces modèles atteindront leur maturité et seront déployés dans la vie quotidienne – dans des domaines allant du service à la clientèle aux soins de santé, en passant par la finance et le transport –, l’inférence explosera

D’ici le début des années 2030 :

  • L’entraînement restera essentiel, mais sera limité à quelques installations mondiales.
  • L’inférence deviendra la principale charge de travail, répartie entre des milliers de sites régionaux et périphériques.
  • La majorité de l’énergie consommée par l’IA sera attribuable aux milliards d’interactions en temps réel plutôt qu’à la création de nouveaux modèles.