L'entraînement de l'intelligence artificielle permettant aux véhicules Tesla d'assurer une conduite semi-autonome (et prochainement complètement autonome) nécessite un puissant supercalculateur Dojo pour apprendre à réagir aux différents cas de figure du trafic routier.
Dérivée de ce savoir-faire, la puce Tesla Dojo D1 dévoilée lors du Tesla AI Day cible cette capacité d'entraînement IA. Présentée comme possédant "la puissance de calcul d'un GPU avec la flexibilité d'un CPU", elle a été entièrement développée en interne et repose sur une plate-forme ASIC avec 50 milliards de transistors reposant sur un die de 645 mm2, le tout gravé chez TSMC en 7 nm.
Ce composant spécifiquement créé pour cette tâche offrira une puissance de traitement de 362 TFLOPS en précision FP16 / CFP8 (Configurable FP8) et 22,6 TFLOPS en précision FP32, soit en principe plus que les 312 TFLOPS en FP16 de l'accélérateur Nvidia A100 (sous Ampere).
Le Dojo D1 est composé d'un ensemble d'unités fonctionnelles comprenant chacune un CPU 64-bit avec 1,25 Mo de SRAM et interconnectées entre elles avec une organisation en mesh permettant d'obtenir des temps de latence très courts.
La puce nécessite une puissance de 400W et relier ses différents composants nécessite quelque 11 miles (17,7 km) de câblage.
A partir de cette unité de base Dojo D1 comprenant 354 unités fonctionnelles, Tesla peut relier les puces entre elles et composer un ensemble de 500 000 unités fonctionnelles pour ses besoins d'entraînement IA.
Training Tile à base de puces Dojo D1 avec ses composants annexes
Toute la conception est pensée pour préserver des temps de latence réduits et une bande passante maximale afin d'obtenir une puissance de traitement avec le minimum d'obstacles.
A partir de ces éléments, Tesla a créé des Training Tiles comprenant 25 dies Dojo D1 reliés entre eux en carré avec des interfaces I/O en bordure assurant une bande passante de 9 To/s par face, soit un total de 36 To/s, et pouvant développer 9 PFLOPS de puissance de traitement.
La première de ces Training Tiles a été testée en fonctionnement peu de temps avant sa présentation au Tesla AI Day mais l'idée sera de créer des ensembles de Training Tiles qui permettront de développer une puissance de traitement de 100 PFLOPS.
A plus long terme, il sera possible de connecter un grand nombre de ses Training Tiles ensemble pour donner un ExaPod atteignant une capacité de traitement de... 1 ExaFlop / seconde (EFLOP) !