Le fonctionnement des systèmes d’intelligence artificielle (IA) suit deux phases distinctes : l’entraînement et l’inférence. Bien que ces phases utilisent du matériel et des données semblables, elles ont des objectifs très différents et nécessitent des centres de données conçus différemment.
Entraînement : apprendre au modèle
L’entraînement de l’IA consiste à apprendre à un modèle à reconnaître des tendances dans les données. C’est comme montrer à un enfant des milliers d’images de chats et de chiens jusqu’à ce qu’il sache faire la différence entre les deux. En pratique, l’entraînement implique de faire passer des milliards d’exemples de textes, d’images ou de vidéos dans des réseaux neuronaux et d’ajuster des millions de paramètres jusqu’à ce que le système puisse effectuer des prédictions exactes.
Ce processus requiert énormément de calculs. L’entraînement d’un grand modèle tel que GPT-4, Claude ou Gemini peut nécessiter des dizaines de milliers de processeurs graphiques fonctionnant sans arrêt pendant des semaines. Ces grappes ont besoin des éléments suivants :
Comme l’entraînement ne nécessite pas une faible latence, les centres de données axés sur l’entraînement sont généralement situés dans des endroits où l’électricité est abondante et bon marché. Jusqu’à présent, la majorité des investissements dans ces grands campus d’entraînement ont été faits en Amérique du Nord, mais les restrictions en matière de disponibilité énergétique poussent toutefois les géants de la technologie à chercher des campus « prêts à livrer » en EMOA et en APJ pour répondre à l’augmentation rapide de la demande en capacité d’entraînement prévue au cours des trois prochaines années.
Inférence : utiliser ce qui a été appris
Une fois formé, le modèle peut effectuer de l’inférence, c’est-à-dire utiliser ses connaissances pour faire des prédictions ou générer des réponses. Individuellement, les tâches d’inférence nécessitent beaucoup moins de ressources que les tâches d’entraînement, mais elles ont lieu des milliards de fois par jour. Alors qu’un nouveau modèle peut être entraîné seulement une fois aux quelques mois, les tâches d’inférence se produisent en continu, et ce, pour des millions d’utilisateurs.
En termes simples :
La montée de l’IA redessine l’investissement mondial dans les centres de données. Pourtant, l’entraînement et l’inférence ont des besoins différents.
Centres de données d’entraînement : supergrappes d’IA
Les centres d’entraînement sont vastes, centralisés et énergivores. Ils sont conçus pour gérer des calculs surtout parallèles avec des processeurs graphiques et un réseau de premier ordre. Ces sites nécessitent des centaines de mégawatts et coûtent des milliards de dollars à construire. Ils sont axés sur l’efficacité par modèle, pas la proximité aux utilisateurs.
Centres de données d’inférence : répartis et évolutifs
De leur côté, les centres de données d’inférence sont plus petits, mais beaucoup plus nombreux. Ils doivent répondre aux utilisateurs en l’espace de quelques millisecondes, ce qui implique qu’ils doivent être proches des données des utilisateurs dans des grappes infonuagiques régionales ou sur place.
Une armoire d’inférence type peut consommer de 12 à 50 kW, mais compte tenu du nombre de déploiements beaucoup plus élevé nécessaire pour traiter l’usage mondial, la demande totale devient immense.
À court terme (2025-2028), les dépenses en immobilisations seront dominées par l’entraînement, alors que Stargate, Microsoft, Google, Amazon et NVIDIA construisent des « supergrappes d’IA ».
Mais à la fin des années 2020, l’inférence deviendra le principal moteur de croissance – en heures de calcul, en nombre de sites et en consommation d’énergie totale.
Bien que l’entraînement reste concentré sur quelques sites gigantesques, l’inférence se produit partout. Toutes les requêtes adressées à des robots conversationnels, tous les courriels et traductions générés par l’IA et toutes les décisions de conduite automatisée représentent des tâches d’inférence.
Même si chaque inférence produit moins de calculs, le volume total des requêtes surpassera un jour celui de l’entraînement. L’inférence finira donc par consommer plus d’énergie au total que l’entraînement, malgré ses armoires plus petites. Elle fonctionnera en temps réel, près des applications et des données des utilisateurs. Comme on prévoit que 70 % des applications d’entreprise seront infonuagiques d’ici 2028, la majorité des centres d’inférence seront colocalisés avec des grappes infonuagiques à haute disponibilité.
D’autres prendront la forme de centres de données régionaux ou en périphérie plus petits – parfois de seulement quelques mégawatts chacun – construits à proximité de tours 5G, de campus d’entreprise ou de fournisseurs de service Internet locaux pour assurer une latence ultrafaible.
Entraînement contre inférence : comparaison rapide
|
Caractéristique |
Centres de données d’entraînement |
Centres de données d’inférence |
|
Objectif |
Créer et affiner des modèles d’IA |
Utiliser des modèles entraînés pour générer des prédictions et des réponses |
|
Taille |
Énormes (sites de 100 à 500 MW) |
Petits, mais nombreux (sites de 1 à 50 MW) |
|
Emplacement |
Régions éloignées où l’énergie est abondante |
Près des utilisateurs |
|
Exigence en matière de latence |
Faible priorité |
Critique (< 50 ms) |
|
Exigence en matière d’énergie |
De 80 à 120 kW par armoire |
De 12 à 50 kW par armoire |
|
Croissance |
Forte jusqu’en 2028 |
Rapide après 2030 |
|
Part à long terme (après 2030) |
Sites moins nombreux, mais énormes |
Sites nombreux et demande totale plus importante |
Au cours des trois prochaines années, le monde continuera d’investir des milliards de dollars dans d’énormes grappes d’entraînement, ces superordinateurs qui créent la prochaine génération de modèles de base.
Mais lorsque ces modèles atteindront leur maturité et seront déployés dans la vie quotidienne – dans des domaines allant du service à la clientèle aux soins de santé, en passant par la finance et le transport –, l’inférence explosera.
D’ici le début des années 2030 :