Le milliardaire Elon Musk a besoin de grosses puissances de traitement pour les intelligences artificielles de ses différentes entreprises, qu'il s'agisse de Tesla pour la conduite autonome ou de xAI pour développer l'IA générative Grok.
Il s'est engagé dans l'achat massif d'accélérateurs IA pour constituer très rapidement des datacenters et supercalculateurs IA capables de porter ses ambitions et il donne régulièrement des nouvelles des développements de ces diverses initiatives.
En mai dernier, il annonçait son intention de bâtir très vite un supercalculateur pour l'IA Grok de xAI en rassemblant des dizaines de milliers d'accélérateurs Nvidia H100, quitte à les prendre dans les volumes initialement attribués à Tesla.
Colossus, Cortex...ces supercalculateurs géants pour l'IA
Quelques mois plus tard, le système semble être mis en place et Elon Musk a salué l'arrivée du supercalculateur Colossus armé de quelque 100 000 accélérateurs Nvidia H100 pour l'entraînement de l'IA, en attendant de pouvoir porter cette capacité à l'équivalent de 200 000 H100 en ajoutant 50 000 accélérateurs H200 dans les mois à venir.
This weekend, the @xAI team brought our Colossus 100k H100 training cluster online. From start to finish, it was done in 122 days.
— Elon Musk (@elonmusk) September 2, 2024
Colossus is the most powerful AI training system in the world. Moreover, it will double in size to 200k (50k H200s) in a few months.
Excellent…
L'homme d'affaires salue une construction du supercalculateur réalisée en 122 jours seulement grâce à l'expertise du groupe Dell, démontrant comment les fabricants de serveurs se sont adaptés à la demande frénétique du secteur IA.
Avec les projets en cours de robotaxi et d'amélioration de la conduite autonome, Tesla n'est pas oubliée même si la priorité semble avoir été donnée à xAI. Le cluster IA Cortex intègre 50 000 modules Nvidia H100 et 20 000 composants Dojo (conçus en interne).
Et ce n'est qu'un début
Tout ceci demande énormément de moyens et de ressources qui ne sont pas toujours immédiatement disponibles. Sur son récent site de Memphis (Tennessee), qui rassemble 100 000 H100 avec refroidissement liquide, l'approvisionnement électrique passe par un fournisseur local mais aussi par un ensemble de turbines à gaz accusées de polluer l'atmosphère déjà délétère de l'agglomération.
Rien ne semble toutefois arrêter les ambitions d'Elon Musk et de ses entreprises. L'entraînement des prochaines versions de l'IA Grok va demander d'énormes quantités d'accélérateurs IA.
Durant le printemps, le milliardaire indiquait que l'entraînement de Grok 2 nécessitait 20 000 composants Nvidia H100 tandis que celui de Grok 3 aura besoin de 100 000 composants.