L'omniprésence imminente de l'IA : naviguer dans l'efficacité du cloud et l'impact environnemental avec CAST AI

Laurent Gil, CAST AI

Aujourd’hui, nous assistons au prix du progrès. Alors que l’IA générative évolue rapidement dans un contexte d’adoption en plein essor, les merveilles de l’intelligence artificielle se heurtent à des coûts et à des défis stupéfiants. L’attrait de la communauté du capital-risque et des géants de la technologie, qui ont investi des milliards de dollars dans des startups spécialisées dans les technologies d’IA générative, n’a pas pris en compte la réalité sous-jacente de ces coûts élevés qui menacent le boom actuel.

En juin 2023, ChatGPT avait reçu 60 millions de visites par jour, avec 10 millions de requêtes par jour. En avril 2023, on estimait que l'exécution de ChatGPT coûterait 70 000 $ par jour, soit un coût moyen de 0,36 $ par question. Cependant, en juin, "Tom Goldstein, professeur d'IA ML à l'Université du Maryland, a estimé le coût quotidien de l'exécution de ChatGPT à environ 100 000 dollars et le coût mensuel à 3 millions de dollars".

Cet article récent présente une startup, Latitude, qui s'est retrouvée aux prises avec des factures exorbitantes alors que ses jeux basés sur l'IA, comme AI Dungeon, gagnaient en popularité. Le jeu de rôle textuel de Latitude utilisait la technologie de langage GPT d'OpenAI, ce qui entraînait une hausse des coûts proportionnelle à l'utilisation du jeu. L'utilisation inattendue d'AI Dungeon par les spécialistes du marketing de contenu pour générer des textes promotionnels a encore exacerbé la pression financière de la startup.

L’une des principales raisons du coût élevé de l’IA générative est la puissance de calcul importante requise pour « la formation et l’inférence ». La formation de grands modèles de langage (LLM) nécessite des milliards de calculs et du matériel spécialisé, tel que des processeurs graphiques (GPU). Nvidia, l'un des principaux fabricants de GPU, propose des puces performantes pour centres de données pouvant coûter jusqu'à 10 000 $ chacune. Les estimations suggèrent que les modèles de formation tels que le GPT-3 d'OpenAI pourraient dépasser 4 millions de dollars, tandis que les modèles plus avancés pourraient atteindre des millions de dollars en coûts de formation.

« Par exemple, le dernier modèle LLaMA de Meta nécessitait 2 048 GPU Nvidia A100 et plus d'un million d'heures de GPU, ce qui a entraîné des coûts de plus de 2,4 millions de dollars. » Cela pourrait créer un fardeau supplémentaire pour les acteurs du secteur comme Microsoft, qui exploitent actuellement cette technologie, ce qui nécessiterait des coûts d'infrastructure pouvant atteindre des milliards de dollars pour répondre à la demande des utilisateurs.

J'ai rencontré Laurent Gil, ancien responsable de l'Internet Intelligence Group d'Oracle et actuel cofondateur de CAST AI, une plateforme d'optimisation cloud basée sur le ML qui analyse des millions de points de données, à la recherche de l'équilibre optimal entre hautes performances et coût le plus bas. CAST AI détermine combien vous pouvez économiser, puis réaffecte vos ressources cloud en temps réel pour atteindre l'objectif sans impact sur les performances.

Nous avons discuté du coût réel de l’adoption de modèles d’IA plus avancés.

Gil a révélé que les services cloud comme AWS, Azure et Google ont une part considérable de leurs factures allouée à la puissance de calcul. Cela inclut les processeurs et la mémoire, qui représentent environ 90 % des coûts, tandis que l'autre moitié couvre divers services tels que le stockage et les bases de données. Il reconnaît que sa réponse aurait été différente il y a 3 mois.

« Pour une entreprise d'IA, elle se concentre davantage sur le calcul et moins sur le reste, car la plupart des coûts de fonctionnement de ce modèle concernent les GPU de calcul... Nous avons de nombreux clients sur le cloud, gérons-nous et optimisons-nous actuellement des millions ? de processeurs chaque jour.

Des observations récentes révèlent une augmentation du nombre d’entreprises d’IA qui investissent des sommes substantielles dans la formation de modèles d’IA spécialisés. Ces processus de formation impliquent une immense utilisation du calcul, allant parfois d'une utilisation minimale du processeur à des dizaines de milliers de processeurs et de GPU fonctionnant pendant des heures pour entraîner efficacement les modèles. Cette distinction est vitale car elle souligne que ces coûts de calcul élevés sont spécifiquement liés à la formation des modèles d'IA et non à leur inférence ou à leur utilisation pratique.

Gil explique qu'il existe deux types de moteurs d'IA : les modèles génériques et spécialisés. Les modèles génériques nécessitent des ressources de calcul étendues et sont utilisés par les grandes entreprises traitant de grandes quantités de données. En raison des coûts élevés, il se peut qu'il y ait moins de joueurs dans cette catégorie. Cependant, il exprime son enthousiasme pour le deuxième type : les modèles spécialisés. Ces modèles se concentrent sur la résolution exceptionnelle de problèmes spécifiques et ne nécessitent pas de périodes prolongées d’utilisation du calcul comme les modèles génériques. Il voit cette spécialisation comme l'avenir de l'industrie, où les entreprises proposeront des solutions uniques et puissantes basées sur leurs données spécialisées, conduisant à une nouvelle économie dans le domaine de l'IA.