Pilotes ML de Google Keynote Charts sur Hot Chips 23

Par John Russell

31 août 2023

Les scientifiques de Google, Jeff Dean et Amin Vahdat, ont présenté cette semaine une visite fascinante des principales tendances en matière de conception de matériel et de logiciels de ML lors de leur discours d'ouverture conjoint du Hot Chips 23. Les deux hommes ont abordé, entre autres sujets, l'augmentation de la rareté par rapport à la densité, les efforts en matière de communications adaptatives, le développement de meilleures mesures de consommation d'énergie et de performances du système, ainsi que la conception accélérée de puces basée sur l'IA.

Dean et Vahdat n'ont laissé que peu de détails, même si aucune information étroitement surveillée par Google n'a été révélée. Certains de ces derniers semblent susceptibles d'émerger lors de l'événement Google Cloud Next 23, qui débute aujourd'hui à San Francisco. Néanmoins, les grandes lignes de Dean et Vahdat ont souligné la nécessité d'accélérer les progrès, car la demande de calcul ML est motivée par de nombreux facteurs, y compris, bien sûr, la taille croissante (nombre de paramètres) des modèles qui dépasse la capacité de l'infrastructure.

"De toute évidence, ces dernières années, l'apprentissage automatique a modifié nos attentes quant à ce que nous pensons être possible avec les ordinateurs", a déclaré Dean. « Les ordinateurs peuvent désormais comprendre l’imagerie, comprendre la parole, comprendre le langage bien mieux qu’avant, ce qui ouvre un ensemble passionnant de nouvelles possibilités. Une autre observation est qu’augmenter l’échelle, utiliser plus de calculs, plus de données et créer des modèles plus grands, donne de meilleurs résultats. Et les types de calculs que nous voulons exécuter, le matériel sur lequel nous voulons les exécuter changent radicalement.

« Je pense que c'est une leçon importante pour les concepteurs de matériel informatique : nous devons en quelque sorte être capables de suivre l'évolution du paysage de la recherche en ML. Dans la suite de l'exposé, je souhaite parler de certaines tendances importantes et du modèle d'apprentissage automatique, de certaines implications pour les architectes informatiques, et de la manière dont nous concevons le matériel ML et le déployons rapidement afin de suivre l'évolution rapide du domaine.

Parfois, il est préférable de commencer par des conclusions.

Dean, scientifique en chef de Google, a présenté la première moitié de l'exposé, en approfondissant (principalement) les tendances en matière de conception matérielle. Vahdat, Google Fellow et responsable technique des réseaux, a abordé les efforts de Google pour réduire les émissions de carbone et a passé beaucoup de temps à discuter de la métrique Goodput de Google. Vahdat a noté : « Google s'est publiquement engagé à fonctionner 24 heures sur 24, 7 jours sur 7, sans carbone d'ici 2030. Un objectif vraiment ambitieux. »

C'était un discours ambitieux. Voici quelques-unes de leurs diapositives et les remarques de Dean sur les tendances des modèles ML, notamment la parcimonie, le calcul adaptatif et les réseaux neuronaux à évolution dynamique. HPCwire assurera une couverture ultérieure des commentaires de Vahdat.

"Les modèles denses, qui sont probablement les réseaux neuronaux que vous connaissez le mieux, sont ceux dans lesquels l'ensemble du modèle est activé pour chaque exemple d'entrée ou pour chaque jeton généré, et c'est le centre d'intérêt de la grande majorité de la communauté d'apprentissage automatique. . Même s'ils sont formidables et ont permis de réaliser de nombreuses grandes choses, le calcul clairsemé sera une tendance importante à l'avenir », a déclaré Dean.

« Les modèles clairsemés ont différentes voies qui sont en quelque sorte sollicitées de manière adaptative selon les besoins. Plutôt que d’avoir ce modèle géant, ces modèles clairsemés peuvent être bien plus efficaces. Ils font simplement appel aux bons éléments du modèle global. Et l’aspect des bonnes pièces s’apprend également au cours du processus de formation. Différentes parties du modèle peuvent ensuite être spécialisées pour différents types d’entrées. Le résultat final est que vous vous retrouvez avec quelque chose dans lequel vous touchez juste le bon 1 % ou le bon 10 % d'un très grand modèle, ce qui vous donne à la fois une réactivité améliorée et une plus grande précision.

Comme Dean et ses collègues l’ont noté dans un article de 2022 (A Review of Sparse Expert Models in Deep Learning), la parcimonie n’est pas nouvelle.

Dans cet article, ils écrivent : « Les modèles experts clairsemés sont un concept vieux de trente ans qui réapparaît comme une architecture populaire dans l’apprentissage profond. Cette classe d'architecture englobe un mélange d'experts, des transformateurs de commutation, des réseaux de routage, des couches BASE et autres, le tout avec l'idée unificatrice que chaque exemple est traité par un sous-ensemble de paramètres. Ce faisant, le degré de parcimonie dissocie le nombre de paramètres du calcul par exemple, permettant ainsi des modèles extrêmement volumineux mais efficaces. Les modèles résultants ont démontré des améliorations significatives dans divers domaines tels que le traitement du langage naturel, la vision par ordinateur et la reconnaissance vocale.