Le groupe Nvidia a fait sa fortune ces trois dernières années avec les accélérateurs et les GPU qui ont alimenté la croissance du secteur de l'intelligence artificielle. Si des questions se posent sur le maintien de cette capacité de croissance, à l'heure où des IA plus frugales réussissent à percer, la firme poursuit son effort pour améliorer les performances de ses composants afin de répondre au prochain défi : les IA capables de raisonner, et ultérieurement les AGI ou intelligences artificielles générales.

Après les GPU B200 avec architecture Blackwell dévoilés l'an dernier, Nvidia annonce pour son événement GTC 2025 l'évolution Blackwell Ultra et le GPU B300 conçu pour les modèles d'IA les plus avancés et doués de raisonnement.

Blackwell Ultra, le support de la prochaine génération d'IA

Ce composant est calibré pour les datacenters IA et sera intégré dans des serveurs comme le Nvidia GB300 NVL72 dont la firme promet déjà une capacité de traitement IA 1,5 fois supérieure à l'équivalent en GB200.

Nvidia Blackwell Ultra

L'équipement embarque quelque 72 GPU Blackwell Ultra et 36 processeurs ARM Nvidia Grace. Rassemblé par groupes de 8, il peut constituer une solution Blackwell Ultra DGX SuperPOD armée de 576 GPU B300, 288 processeurs Grace et 300 To de mémoire HBM3e pour fournir 11,5 ExaFLOPS de capacité de traitement en précision FP4.

Le nouveau GPU B300 promet des performances de 15 petaflops en précision FP4 et peut être associé à 288 Go de mémoire rapide. Nvidia ne donne pas la puissance nécessaire pour le faire fonctionner et il reste donc à voir de combien il dépasse les 1300W déjà nécessaires pour alimenter le GPU B200.

Nvidia annonce une capacité d'inférence 30 fois supérieure à ses solutions Hopper, grâce à l'architecture mais aussi aux évolutions techniques des différents composants matériels et d'interconnexion associés.

Nvidia améliore aussi les débits en sortie

Un point intéressant est à noter : Nvidia indique également que sa nouvelle solution aidera à améliorer les débits de tokens en sortie et donc d'accélérer les temps de réponse des intelligences artificielles.

C'est particulièrement important pour les IA par raisonnement dont les réponses aux requêtes passent par un plus grand nombre d'étapes et prennent plus de temps. Nvidia évoque ainsi une multiplication par 10 de la production en sortie, avec des attentes autour de 1000 tokens/s, au lieu de 100 tokens/s pour Hopper.

Nvidia Blackwell Ultra SuperPOD

Ces temps de sortie sont un nouvel enjeu et des concurrents comme Cerebras et ses grosses puces sur wafer a mis cet aspect en avant lors de ses récents partenariats avec Perplexity et Mistral AI.

L'architecture Blackwell Ultra et ses GPU B300 sont déjà en test chez certains clients et seront plus largement disponibles à partir du second semestre 2025. Tous les grands noms des fabricants de serveurs s'y intéressent, de même que les grands fournisseurs de services cloud comme AWS (Amazon), Google, Microsoft ou Oracle proposeront des instances Blackwell Ultra dès son lancement.