Grand angle

Le futur de l’IA sera-t-il open source ?

Date de l’événement 23 May. 2023
Temps de lecture min.

Depuis le début de l’année, la tornade ChatGPT semble tout emporter sur son passage. Mais, ces dernières semaines, des annonces de la communauté open source ont montré la vitalité et l’inventivité de ces solutions. Quelle est la place de l’open source dans le paysage actuel de l’IA générative ?

Mort d’un duel annoncé

D’un côté Google, le géant monopolistique du traitement des données et ses activités de recherche IA incarnées par leur filiale emblématique Deep Mind. De l’autre, OpenAI, soutenu par Microsoft, qui crée une offre ouverte au public avec ChatGPT, une technologie auparavant cantonnée aux laboratoires.

Le mastodonte contre le challenger.

Les forces en présence du marché bouillonnant de l’IA générative textuelle paraissent bien identifiées. Google contre OpenAI/Microsoft sur le ring, et dans la salle de musculation, les challengers qui s’échauffent : Meta, Amazon, Anthropic. Le nombre quasi exponentiel des inscriptions à ChatGPT est un signal d’alarme pour la firme de Mountain View, qui est bien placée pour savoir que le premier arrivé est parfois le mieux servi. Cet affrontement, finalement assez traditionnel, entre compétiteurs de la data, est complètement bouleversé en quelques semaines par l’apparition d’un nouvel arrivant : l’open source.

Début mai, un chercheur de Google publie sur Discord une discussion interne dans laquelle il affirme que ni Google ni OpenAI ne sont en position de dominer le marché des moteurs LLM (Large Language Models) qui sont au cœur de ChatGPT et de Bard. La vague open source est selon lui inarrêtable. Cette prédiction semble un peu outrancière lorsque l’on considère les ressources financières quasi illimitées des GAFA, mais elle est basée sur une cascade d'annonces de solutions open source, qui viennent bouleverser les capacités et les usages de l’IA. Auto GPT, GPT4ALL, Stable LM, Baby AGI, Alpaca, GPT-J, open LLaMa, Vicuna : ces innovations, dont certaines majeures, sont apparues non pas en quelques mois, mais en quelques semaines. Auto GPT en particulier accumule plus de 40,000 stars sur GitHub en 48 heures...

Pour expliquer l’explosion de l’offre open source, alors qu’elle était quasiment inexistante il y a quelques mois, il est cependant nécessaire de faire un petit retour en arrière.

LoRA et Chinchilla

2022 : Deep Mind annonce la sortie de Chinchilla, un modèle NLP apparemment aussi efficace que chat GPT 3, mais avec presque trois fois moins de paramètres. Le modèle reste dans les cartons de la maison, mais donne les bases théoriques d’un programme d’amaigrissement.

Autre évolution : la méthode LoRA (Low Rank Adaptation), initiée dans les laboratoires de Microsoft, consiste à entraîner des modèles de plus petite taille, donc avec moins de paramètres, et à combiner ces derniers avec ceux d’un modèle large comme GPT3. Une “petite” IA synthétise les paramètres d’une plus grande pour plus d’efficience : c’est l’IA qui paramètre l’IA.

Le Lama s’échappe

En février 2023, Meta annonce la sortie de LLaMA, leur dernier modèle de langage, ouvert à la communauté scientifique, mais fermé au grand public. Le but de Meta est de recevoir le feedback des spécialistes afin d’améliorer la robustesse du modèle, mais aussi d’étudier les multiples biais, inventions et autres contre-vérités dont souffrent les LLM.

Une semaine après sa sortie, les poids du modèle sortent sur 4chan et se retrouvent en libre accès sur les serveurs torrent. Or les biais, c’est ce qui fait en grande partie la valeur d’un modèle d’IA, ce sont eux qui modifient les données en entrée dans un node. Avoir les poids (on peut aussi généraliser en parlant de paramètres) d’un modèle, c’est pouvoir le modifier et l’adapter à ses objectifs. Tout le monde peut créer sa propre version du modèle de Meta : le Lama s’est définitivement échappé.

Toujours plus grand

Jusqu’alors, la course à la puissance des modèles LLM est quantitative : il s’agit d’absorber des datasets d’une taille de plus en plus démesurée et donc d’adapter les milliards de paramètres qui en découlent. Pour avoir la meilleure performance possible, il faut toujours plus de données, plus de paramètres, plus de capacités de calcul. Le coût de l'entraînement se compte en millions de dollars et Open AI doit se tourner vers Microsoft : la conception d’un LLM est inaccessible si l’on n’a pas les poches (bien) pleines.

Les résultats sont spectaculaires pour le grand public qui découvre une IA qui mérite (au moins en partie) son nom. Mais le gigantisme des LLM pose de nouveaux problèmes. Il devient impossible d’obtenir une explicabilité satisfaisante des réponses de l’IA. C’est le fameux effet boite noire des réseaux neuronaux poussé à l’extrême. Sans explicabilité, il se crée un enjeu de confiance dans les résultats Les filtres éthiques et de sécurité ressemblent plus à des patchs d’urgence qu'à une véritable maîtrise de l’IA. La confidentialité des données et les problématiques de contrôle deviennent plus aiguës. Les temps de traitement s’allongent, les datasets se raréfient et les hallucinations persistent. En un mot, les LLM sont en surpoids.

La valeur plutôt que le nombre

La communauté open source a rapidement compris la valeur de LLaMA qu’elle venait de “récupérer”. Un modèle que l’on peut modifier, des paramètres rationalisés, des besoins modestes de computation pour le fine tuning. La combinaison est radicale : un développeur ou data scientist armé d’un portable un peu musclé peut effectuer un fine tuning de LLaMA en une nuit et le faire tourner en local.

Reste le problème de la taille des datasets. Les chercheurs découvrent que la qualité des données prime sur la quantité. Certes, il faut des quantités toujours importantes pour obtenir de bons résultats, mais des jeux de données de haute qualité compensent en partie l’immensité de ceux des géants.

En mars, une équipe de l’université de Stanford décide d'entraîner le modèle 7B de LLaMA en lui faisant ingérer un dataset de 52 000 questions/réponses généré par GPT3. Le modèle produit est étonnamment réduit et la qualité de ses réponses le rapproche de l’original : bienvenue à Alpaca.

La revanche de Meta

L’article de Google mentionne que finalement, parmi les géants de la tech, les seuls à ressortir gagnants de la “démocratisation” des LLM est Meta. Certes, c'est une victoire qu’ils n’ont pas cherchée, mais LLaMA étant le parent naturel de la plupart des modèles open source (on peut citer en particulier GPT-J et GPT4ALL), il devient de facto une sorte de standard. LLaMA est devenu la base technique de la plupart des LLM ouverts et Meta pourrait continuer à améliorer leur réseau neuronal afin de constituer une sorte de plateforme de facto. Et le marketplace qui vient avec... Un écosystème de modèles optimisés par les utilisateurs, légers et efficaces, qui constituerait un rapport qualité-coût qui semble impossible à rattraper pour les GAFA qui eux doivent effectuer leur entrainement sur des supercalculateurs à 100,000 dollars de l’heure et payer des coûts exorbitants d’infrastructure. Reste à savoir si Meta et le laboratoire dirigé par Yann LeCun ont cette vision... Le vide juridique entourant la propriété intellectuelle des poids crée en tout cas une situation nouvelle propice à l’essor de l’open source, et des modèles comme GPT-J offrent des licences commerciales.

C’est finalement un peu l’arroseur arrosé : alors que ceux qui produisent de la donnée de qualité accusent OpenAI et Google d’utiliser leur data sets pour l'entraînement de leurs énormes modèles, ces derniers se font à leur tour cloner à peu de frais.

L’open source irrésistible ?

Le développement de modèles open source peu chers, efficaces et soutenus par une communauté active ne peut être égalé, même par des laboratoires aux poches profondes. L’open source semble l’avenir à court et moyen terme de l’IA. Si l’on peut utiliser des modèles ouverts, les entraîner à peu de frais, quel est l’intérêt de payer Open AI ou Google ? Quel est l’intérêt d’envoyer ses données en Californie lorsque l’on peut intégrer une IA locale et privée, adaptée à son propre corpus de connaissances ? L’adaptation de LLaMA par la communauté open source a des cas d’usage comme le mobile ouvre également la porte à la prochaine grande étape de l’IA : les moteurs embarqués. On peut penser à la robotique et l’IoT. C’est sans doute d’ailleurs dans cette optique que l’on peut interpréter l’absence remarquée d’un autre géant de la tech : Apple. La marque à la pomme possède à la fois la maîtrise logicielle et de son hardware. Les puces M1 possèdent des unités de computation parallèles idéales pour le machine learning. Il y aurait fort à parier qu’Apple nous annoncera bientôt une IA embarquée, ou l’utilisateur peut configurer les données qu’il veut partager, et qui pourront décupler les possibilités de son iPhone ou de ses lunettes AR annoncées depuis des années…

La liberté de choix

La vague de l’open source, qui dessine un paysage ou de multiples IA optimisées sur les besoins des utilisateurs, sera sans doute le levier qui permettra l’essor d’un véritable écosystème décentralisé.

Mais plutôt que d’opposer l’open source aux grands acteurs de l’IA, chez Smile, nous pensons que le client doit avoir le choix. En tant que spécialistes des solutions open source, nous pensons que l’écosystème open source va continuer à se diversifier et offrir de nouveaux services et usages à nos clients. Mais nous pensons aussi qu’utiliser des infrastructures solides et sécurisées peut-être intéressant lorsque l’on souhaite traiter de vastes sources de données ou que l’on veut pouvoir asseoir son SI sur des solutions prouvées comme celles offertes par Microsoft, Google ou AWS. Des solutions qui, elles aussi, continuent à évoluer et ouvrent de nouvelles possibilités (open AI voit fleurir un nouvel écosystème de plugins).

La diversité des solutions est un signe de bonne santé d’un marché en pleine évolution et il est positif de voir que l’open source est déjà une alternative intéressante.

Comme avec toute nouvelle technologie, il est parfois difficile d’y voir clair et de savoir ce qu’elle peut apporter concrètement à votre business.

Si vous souhaitez explorer avec nous les possibilités qu’offrent les LLMs, les choix techniques possibles et les cas d’usage qui peuvent être traités, n’hésitez pas à nous contacter, nous serons ravis de discuter avec vous des meilleures options qui s’offrent à votre activité !

Lionel Regis-Constant

Consultant Senior Data/IA

Le futur de l’IA sera-t-il open source ?

Mort d’un duel annoncé

LoRA et Chinchilla

Le Lama s’échappe

Toujours plus grand

La valeur plutôt que le nombre

La revanche de Meta

L’open source irrésistible ?

La liberté de choix

La suite se développe avec vous !

Vous avez un projet ?
Demandez conseil à nos experts

Envie d’un job
qui vous donne le SMILE ?

Le futur de l’IA sera-t-il open source ?

Mort d’un duel annoncé

LoRA et Chinchilla

Le Lama s’échappe

Toujours plus grand

La valeur plutôt que le nombre

La revanche de Meta

L’open source irrésistible ?

La liberté de choix

La suite se développe avec vous !

Vous avez un projet ? Demandez conseil à nos experts

Envie d’un job qui vous donne le SMILE ?

Vous avez un projet ?
Demandez conseil à nos experts

Envie d’un job
qui vous donne le SMILE ?