Depuis le début de l’année, la tornade ChatGPT semble tout emporter sur son passage. Mais, ces dernières semaines, des annonces de la communauté open source ont montré la vitalité et l’inventivité de ces solutions. Quelle est la place de l’open source dans le paysage actuel de l’IA générative ?
Mort d’un duel annoncé
D’un côté Google, le géant monopolistique du traitement des données et ses activités de recherche IA incarnées par leur filiale emblématique Deep Mind. De l’autre, OpenAI, soutenu par Microsoft, qui crée une offre ouverte au public avec ChatGPT, une technologie auparavant cantonnée aux laboratoires.
Le mastodonte contre le challenger.
Les forces en présence du marché bouillonnant de l’IA générative textuelle paraissent bien identifiées. Google contre OpenAI/Microsoft sur le ring, et dans la salle de musculation, les challengers qui s’échauffent : Meta, Amazon, Anthropic. Le nombre quasi exponentiel des inscriptions à ChatGPT est un signal d’alarme pour la firme de Mountain View, qui est bien placée pour savoir que le premier arrivé est parfois le mieux servi. Cet affrontement, finalement assez traditionnel, entre compétiteurs de la data, est complètement bouleversé en quelques semaines par l’apparition d’un nouvel arrivant : l’open source.
Début mai, un chercheur de Google publie sur Discord une discussion interne dans laquelle il affirme que ni Google ni OpenAI ne sont en position de dominer le marché des moteurs LLM (Large Language Models) qui sont au cœur de ChatGPT et de Bard. La vague open source est selon lui inarrêtable. Cette prédiction semble un peu outrancière lorsque l’on considère les ressources financières quasi illimitées des GAFA, mais elle est basée sur une cascade d'annonces de solutions open source, qui viennent bouleverser les capacités et les usages de l’IA. Auto GPT, GPT4ALL, Stable LM, Baby AGI, Alpaca, GPT-J, open LLaMa, Vicuna : ces innovations, dont certaines majeures, sont apparues non pas en quelques mois, mais en quelques semaines. Auto GPT en particulier accumule plus de 40,000 stars sur GitHub en 48 heures...
Pour expliquer l’explosion de l’offre open source, alors qu’elle était quasiment inexistante il y a quelques mois, il est cependant nécessaire de faire un petit retour en arrière.
LoRA et Chinchilla
2022 : Deep Mind annonce la sortie de Chinchilla, un modèle NLP apparemment aussi efficace que chat GPT 3, mais avec presque trois fois moins de paramètres. Le modèle reste dans les cartons de la maison, mais donne les bases théoriques d’un programme d’amaigrissement.
Autre évolution : la méthode LoRA (Low Rank Adaptation), initiée dans les laboratoires de Microsoft, consiste à entraîner des modèles de plus petite taille, donc avec moins de paramètres, et à combiner ces derniers avec ceux d’un modèle large comme GPT3. Une “petite” IA synthétise les paramètres d’une plus grande pour plus d’efficience : c’est l’IA qui paramètre l’IA.
Le Lama s’échappe
En février 2023, Meta annonce la sortie de LLaMA, leur dernier modèle de langage, ouvert à la communauté scientifique, mais fermé au grand public. Le but de Meta est de recevoir le feedback des spécialistes afin d’améliorer la robustesse du modèle, mais aussi d’étudier les multiples biais, inventions et autres contre-vérités dont souffrent les LLM.
Une semaine après sa sortie, les poids du modèle sortent sur 4chan et se retrouvent en libre accès sur les serveurs torrent. Or les biais, c’est ce qui fait en grande partie la valeur d’un modèle d’IA, ce sont eux qui modifient les données en entrée dans un node. Avoir les poids (on peut aussi généraliser en parlant de paramètres) d’un modèle, c’est pouvoir le modifier et l’adapter à ses objectifs. Tout le monde peut créer sa propre version du modèle de Meta : le Lama s’est définitivement échappé.
Toujours plus grand
Jusqu’alors, la course à la puissance des modèles LLM est quantitative : il s’agit d’absorber des datasets d’une taille de plus en plus démesurée et donc d’adapter les milliards de paramètres qui en découlent. Pour avoir la meilleure performance possible, il faut toujours plus de données, plus de paramètres, plus de capacités de calcul. Le coût de l'entraînement se compte en millions de dollars et Open AI doit se tourner vers Microsoft : la conception d’un LLM est inaccessible si l’on n’a pas les poches (bien) pleines.
Les résultats sont spectaculaires pour le grand public qui découvre une IA qui mérite (au moins en partie) son nom. Mais le gigantisme des LLM pose de nouveaux problèmes. Il devient impossible d’obtenir une explicabilité satisfaisante des réponses de l’IA. C’est le fameux effet boite noire des réseaux neuronaux poussé à l’extrême. Sans explicabilité, il se crée un enjeu de confiance dans les résultats Les filtres éthiques et de sécurité ressemblent plus à des patchs d’urgence qu'à une véritable maîtrise de l’IA. La confidentialité des données et les problématiques de contrôle deviennent plus aiguës. Les temps de traitement s’allongent, les datasets se raréfient et les hallucinations persistent. En un mot, les LLM sont en surpoids.
La valeur plutôt que le nombre
La communauté open source a rapidement compris la valeur de LLaMA qu’elle venait de “récupérer”. Un modèle que l’on peut modifier, des paramètres rationalisés, des besoins modestes de computation pour le fine tuning. La combinaison est radicale : un développeur ou data scientist armé d’un portable un peu musclé peut effectuer un fine tuning de LLaMA en une nuit et le faire tourner en local.
Reste le problème de la taille des datasets. Les chercheurs découvrent que la qualité des données prime sur la quantité. Certes, il faut des quantités toujours importantes pour obtenir de bons résultats, mais des jeux de données de haute qualité compensent en partie l’immensité de ceux des géants.
En mars, une équipe de l’université de Stanford décide d'entraîner le modèle 7B de LLaMA en lui faisant ingérer un dataset de 52 000 questions/réponses généré par GPT3. Le modèle produit est étonnamment réduit et la qualité de ses réponses le rapproche de l’original : bienvenue à Alpaca.
La revanche de Meta
L’article de Google mentionne que finalement, parmi les géants de la tech, les seuls à ressortir gagnants de la “démocratisation” des LLM est Meta. Certes, c'est une victoire qu’ils n’ont pas cherchée, mais LLaMA étant le parent naturel de la plupart des modèles open source (on peut citer en particulier GPT-J et GPT4ALL), il devient de facto une sorte de standard. LLaMA est devenu la base technique de la plupart des LLM ouverts et Meta pourrait continuer à améliorer leur réseau neuronal afin de constituer une sorte de plateforme de facto. Et le marketplace qui vient avec... Un écosystème de modèles optimisés par les utilisateurs, légers et efficaces, qui constituerait un rapport qualité-coût qui semble impossible à rattraper pour les GAFA qui eux doivent effectuer leur entrainement sur des supercalculateurs à 100,000 dollars de l’heure et payer des coûts exorbitants d’infrastructure. Reste à savoir si Meta et le laboratoire dirigé par Yann LeCun ont cette vision... Le vide juridique entourant la propriété intellectuelle des poids crée en tout cas une situation nouvelle propice à l’essor de l’open source, et des modèles comme GPT-J offrent des licences commerciales.
C’est finalement un peu l’arroseur arrosé : alors que ceux qui produisent de la donnée de qualité accusent OpenAI et Google d’utiliser leur data sets pour l'entraînement de leurs énormes modèles, ces derniers se font à leur tour cloner à peu de frais.
L’open source irrésistible ?
Le développement de modèles open source peu chers, efficaces et soutenus par une communauté active ne peut être égalé, même par des laboratoires aux poches profondes. L’open source semble l’avenir à court et moyen terme de l’IA. Si l’on peut utiliser des modèles ouverts, les entraîner à peu de frais, quel est l’intérêt de payer Open AI ou Google ? Quel est l’intérêt d’envoyer ses données en Californie lorsque l’on peut intégrer une IA locale et privée, adaptée à son propre corpus de connaissances ? L’adaptation de LLaMA par la communauté open source a des cas d’usage comme le mobile ouvre également la porte à la prochaine grande étape de l’IA : les moteurs embarqués. On peut penser à la robotique et l’IoT. C’est sans doute d’ailleurs dans cette optique que l’on peut interpréter l’absence remarquée d’un autre géant de la tech : Apple. La marque à la pomme possède à la fois la maîtrise logicielle et de son hardware. Les puces M1 possèdent des unités de computation parallèles idéales pour le machine learning. Il y aurait fort à parier qu’Apple nous annoncera bientôt une IA embarquée, ou l’utilisateur peut configurer les données qu’il veut partager, et qui pourront décupler les possibilités de son iPhone ou de ses lunettes AR annoncées depuis des années…
La liberté de choix
La vague de l’open source, qui dessine un paysage ou de multiples IA optimisées sur les besoins des utilisateurs, sera sans doute le levier qui permettra l’essor d’un véritable écosystème décentralisé.
Mais plutôt que d’opposer l’open source aux grands acteurs de l’IA, chez Smile, nous pensons que le client doit avoir le choix. En tant que spécialistes des solutions open source, nous pensons que l’écosystème open source va continuer à se diversifier et offrir de nouveaux services et usages à nos clients. Mais nous pensons aussi qu’utiliser des infrastructures solides et sécurisées peut-être intéressant lorsque l’on souhaite traiter de vastes sources de données ou que l’on veut pouvoir asseoir son SI sur des solutions prouvées comme celles offertes par Microsoft, Google ou AWS. Des solutions qui, elles aussi, continuent à évoluer et ouvrent de nouvelles possibilités (open AI voit fleurir un nouvel écosystème de plugins).
La diversité des solutions est un signe de bonne santé d’un marché en pleine évolution et il est positif de voir que l’open source est déjà une alternative intéressante.
Comme avec toute nouvelle technologie, il est parfois difficile d’y voir clair et de savoir ce qu’elle peut apporter concrètement à votre business.
Si vous souhaitez explorer avec nous les possibilités qu’offrent les LLMs, les choix techniques possibles et les cas d’usage qui peuvent être traités, n’hésitez pas à nous contacter, nous serons ravis de discuter avec vous des meilleures options qui s’offrent à votre activité !