Qu’est-ce qu’un GPU Hopper ?
Les GPU Hopper sont la dernière génération de GPU haute performance de NVIDIA. Spécialement conçus pour l’IA et le HPC, ces GPU permettent de faire évoluer une grande variété de charges de travail. Ils sont basés sur une architecture innovante avec de puissants Tensor Cores et combinent plusieurs technologies de pointe pour maximiser les performances. Les GPU Hopper de NVIDIA conviennent entre autres à l’inférence IA, au Deep Learning et à l’IA générative.
L’architecture des GPU Hopper de NVIDIA
L’appellation « GPU Hopper » provient de l’architecture Hopper qui, en tant que microarchitecture GPU, constitue la base des GPU haute performance, optimisée pour les charges de travail IA et les applications HPC. Les GPU Hopper sont fabriqués par TSMC en technologie 4 nanomètres et disposent de quatre-vingts milliards de transistors, ce qui en fait les cartes graphiques les plus avancées disponibles sur le marché à l’heure actuelle.
Avec l’architecture Hopper, NVIDIA combine la dernière génération de Tensor Cores avec cinq innovations de pointe : le Transformer Engine, les systèmes de commutation NVLink/NVSwitch/NVLink, le Confidential Computing, les GPU multi-instances (MIG) de deuxième génération et les instructions DPX. Grâce à ces technologies, les GPU Hopper permettent d’accélérer l’inférence IAjusqu’à trente fois par rapport à la génération précédente. Cela est basé sur les résultats du chatbot Megatron 530B de NVIDIA, le plus grand modèle de langage génératif au monde.
Utilisez la puissance de calcul GPU en toute flexibilité pour gérer de grandes quantités de données et payez uniquement les ressources utilisées.
Les fonctionnalités innovantes des GPU Hopper
Les GPU Hopper sont dotés de plusieurs fonctionnalités inédites qui contribuent à améliorer leurs performances, efficacité et évolutivité. Voici les principales nouveautés :
- Transformer Engine : le Transformer Engine permet aux GPU Hopper d’entraîner les modèles d’IA jusqu’à neuf fois plus vite. Pour les tâches d’inférence dans le domaine des modèles linguistiques, les GPU atteignent une accélération jusqu’à trente fois supérieure à celle de la génération précédente.
- Système de commutation NVLink : la quatrième génération de NVLink fournit une bande passante GPU bidirectionnelle de 900 Go/s, tandis que NVSwitch assure une meilleure évolutivité des clusters H200. Cela garantit un traitement efficace des modèles IA avec des billions de paramètres.
- Confidential Computing : l’architecture Hopper garantit la protection de vos données, modèles IA et algorithmes, même pendant le traitement.
- GPU multi-instance (MIG) 2.0 : la deuxième génération de la technologie MIG permet de diviser un seul GPU Hopper en sept instances isolées maximum. Cela permet à plusieurs personnes de traiter simultanément différentes charges de travail sans se nuire mutuellement.
- Instructions DPX : les instructions DPX permettent de calculer des algorithmes programmés dynamiquement jusqu’à sept fois plus vite qu’avec les GPU de l’architecture Ampere.
Dans le guide « Comparaison des GPU pour serveurs », nous vous présentons les meilleurs GPU pour votre serveur. Vous trouverez également dans le Digital Guide tout ce qu’il faut savoir sur le thème des serveurs GPU.
Quels sont les cas d’usage des GPU
Les GPU NVIDIA basés sur l’architecture Hopper sont conçus pour des charges de travail hautes performances de différents types. Les principaux domaines d’application des GPU Hopper sont :
- Tâches d’inférence : ces GPU comptent parmi les solutions leaders de l’industrie pour l’utilisation productive de l’inférence IA. Qu’il s’agisse de systèmes de recommandation dans le commerce électronique, de diagnostics médicaux ou de prédictions en temps réel pour la conduite autonome, les GPU Hopper peuvent traiter rapidement et efficacement d’énormes quantités de données.
- IA générative : les GPU haut de gamme fournissent la puissance de calcul nécessaire à l’entraînement et à l’exécution d’outils d’IA générative. Le traitement parallèle permet des calculs plus efficaces pour les tâches créatives telles que la génération de texte, d’images et de vidéos.
- Entraînement en Deep Learning : grâce à leur grande puissance de calcul, les GPU Hopper conviennent parfaitement à l’entraînement de grands réseaux neuronaux. L’architecture Hopper permet de réduire considérablement les temps d’entraînement des modèles d’IA.
- IA conversationnelle : étant optimisés pour le traitement du langage naturel (NLP), les GPU Hopper sont idéaux pour les systèmes vocaux basés sur l’IA tels que les assistants virtuels et les chatbots IA. Ils accélèrent le traitement de grands modèles d’IA et garantissent des interactions réactives qui s’intègrent de manière transparente dans les processus d’entreprise, comme l’assistance.
- Analyse de données et Big Data : les GPU Hopper gèrent d’énormes quantités de données à grande vitesse et accélèrent les calculs complexes grâce à un traitement parallèle massif. Cela permet aux entreprises d’évaluer plus rapidement le Big Data, d’établir des prévisions et de prendre les mesures adaptées.
- Science et recherche : comme ces GPU sont conçus pour les applications HPC, ils sont parfaitement adaptés aux simulations et calculs très complexes. Les GPU Hopper sont ainsi utilisés en astrophysique, pour la modélisation du climat et en chimie informatique.
Modèles actuels de NVIDIA
Avec le NVIDIA H100 et le NVIDIA H200, l’entreprise américaine a déjà lancé deux GPU Hopper sur le marché. Le NVIDIA A30 est quant à lui toujours basé sur l’architecture Ampere. Notons que le H200 n’est pas vraiment un modèle indépendant, mais plutôt une évolution du H100. Les différences entre les deux GPU sont les suivantes :
- Mémoire et bande passante : alors que le NVIDIA H100 est équipé d’une mémoire HBM3 de 80 Go, le GPU H200 dispose d’une mémoire HBM3e d’une capacité de 141 Go. En termes de bande passante mémoire, le H200 est nettement en avance avec 4,8 To/s contre 2 To/s pour le H100.
- Performances pour l’inférence IA : en comparaison, le NVIDIA H200 fournit une puissance d’inférence deux fois plus élevée pour des modèles de type LLaMA 2-70 par rapport à sa version précédente. Cela permet non seulement un traitement plus rapide, mais aussi une scalabilité efficace.
- Applications HPC et calculs scientifiques : le H100 offre déjà un niveau de performance de premier ordre pour les calculs complexes, que le H200 surpasse encore. La vitesse d’inférence est jusqu’à deux fois plus élevée et les performances HPC sont, elles, environ 20 % supérieures.