Alors que les rumeurs courent sur des nouvelles technos d’IA générative comme la prometteuse Mamba, l'architecture "Mixture of Experts" (MoE) s'impose comme l’approche la plus prometteuse en terme d’efficience et obtient d’excellents résultats qualitatifs avec un nombre restreint de paramètres. Cette architecture a permis à des modèles comme Mixtral 8x7B d'obtenir des résultats remarquables, se rapprochant de ceux de GPT-4, qui lui-même repose sur MoE.
La MoE s'inspire de l'idée de “collaboration” entre des sous-modèles “experts”, qui sont des réseaux neuronaux plus petits et spécialisés. Ces spécialisations peuvent être multiples : syntaxiques, modales, métier… etc . Pour simplifier, on peut décrire le MOE comme une assemblée ou différentes personnes, chacune avec des points forts différentes, traite une demande et donne la réponse appropriée. Un “réseau de gating” (parfois appelé “router”) calcule une pondération pour chaque expert, et les sorties des experts sont ensuite combinées pour générer une sortie finale. Cette approche permet donc de mieux comprendre la demande de l’utilisateur en la divisant plus efficacement entre plusieurs sous-domaines.
Cette manière de diviser les requêtes est un peu identiques à l’approche du multi-agents et possède un certain nombre d’avantages :
- Efficacité accrue : MoE permet de répartir la charge de calcul entre les experts, ce qui se traduit par une meilleure efficacité et une réduction du temps d'apprentissage.
- Meilleure performance : La spécialisation des experts permet d'obtenir une meilleure précision et une meilleure adaptabilité à différents types de tâches.
- Flexibilité : L'architecture MoE est flexible et peut être facilement adaptée à différents types de modèles et de problèmes.
Cette approche modulaire permet également d’envisager des MOE encore plus spécialisés, dans lesquels des workflows seraient divisés et répartis sur des experts fine tuned sur des partices très spécifiques. L'architecture MoE représente en tout cas une avancée prometteuse pour l'IA générative. Sa capacité à améliorer l'efficacité, la performance, la flexibilité des modèles et surtout son efficience nous rapprochnt d’une vision ou le coût d’usage d’une solution IA basée sur des cas d’usages spécifiques deviennent de plus en plus accessible à tous.