Découvrez NExT-GPT: Le premier LLM multimodal toutes-modalités à toutes-modalités

Find AI Tools
No difficulty
No complicated process
Find ai tools

Découvrez NExT-GPT: Le premier LLM multimodal toutes-modalités à toutes-modalités

Table des matières:

  1. Introduction à l'apprentissage multimodal
  2. Modèles existants en apprentissage multimodal
  3. Le modèle Next GPT
  4. Architecture du modèle Next GPT
  5. Composants majeurs du modèle Next GPT
    • Encodeur
    • Couche de projection
    • Étape de compréhension et de raisonnement basée sur LLM
    • Étape de génération de contenu basée sur instructions multimodales
    • Modèles de décodage
  6. Alignement du modèle Next GPT
    • Alignement de l'encodeur
    • Alignement du décodeur
    • Alignement d'instruction suivante
  7. Formation du modèle Next GPT
  8. Ensemble de données MOSet pour l'apprentissage multimodal
  9. Utilisation du modèle Next GPT pour l'inférence
  10. Conclusion
  11. Ressources complémentaires

🤖 Introduction à l'apprentissage multimodal

L'un des domaines passionnants de l'IA est l'apprentissage multimodal, où les modèles d'IA n'apprennent pas seulement à partir d'une seule modalité, comme le texte ou les images, mais d'une combinaison de ces modalités. Bien que des progrès importants aient été réalisés dans ce domaine, avec des modèles tels que "Image Point" capables de traiter plusieurs modalités, tels que texte, images ou vidéos, ils sont limités par le fait que leur sortie est toujours basée sur une seule modalité, en général le texte. C'est pourquoi il est nécessaire de développer de nouveaux modèles de la catégorie "toute-modalité à toute-modalité", où le modèle est capable de prendre n'importe quelle modalité en entrée et de produire n'importe quelle modalité en sortie.

🧩 Modèles existants en apprentissage multimodal

Dans cette section, nous étudierons les modèles existants en apprentissage multimodal. Un exemple significatif est le modèle "Image Point" qui peut traiter différentes modalités telles que le texte, les images ou les vidéos. Cependant, ces modèles fonctionnent selon un régime "n'importe-vers-un", où la sortie est toujours une modalité spécifique, généralement du texte. Pour repousser les limites de l'apprentissage multimodal, des modèles tels que "Next GPT" ont été développés pour explorer le régime "n'importe-vers-n'importe", où le modèle est en mesure de prendre n'importe quelle modalité en entrée et de produire n'importe quelle modalité en sortie.

🚀 Le modèle Next GPT

Le modèle Next GPT est le premier modèle à explorer le domaine de l'apprentissage multimodal en utilisant un régime "n'importe-vers-n'importe" plutôt qu'un régime "n'importe-vers-un". Dans cette section, nous plongerons dans l'architecture du modèle Next GPT, en mettant l'accent sur la commutation de modalité, les instructions multimodales et l'alignement multimodal basé sur LLM.

Architecture du modèle Next GPT

Le modèle Next GPT peut être divisé en trois grandes parties : l'encodeur, la couche de projection et l'étape basée sur LLM (Low-level Modeling) qui comprend l'alignement multimodal et la génération de contenu.

Encodeur

L'encodeur du modèle Next GPT est essentiellement responsable de la représentation de l'entrée multimodale. Différentes options sont disponibles pour l'encodage, mais Next GPT utilise principalement "Image Point" car il peut naturellement traiter six modalités différentes, telles que le texte, l'audio, la profondeur, etc. Les sorties d'Image Point sont ensuite transmises aux couches de projection.

Couche de projection

Les couches de projection du modèle Next GPT sont des couches linéaires simples qui convertissent les sorties d'Image Point en représentations qui ressemblent le plus possible aux jetons LLM (Low-level Modeling). Ces représentations projetées sont ensuite transmises à l'étape de compréhension et de raisonnement basée sur LLM.

Étape de compréhension et de raisonnement basée sur LLM

L'étape de compréhension et de raisonnement basée sur LLM produit des jetons de texte accompagnés de signaux de modalité, ce qui permet au décodeur de produire du contenu dans la modalité appropriée. Dans Next GPT, l'étape de LLM utilise le modèle open source "Vikuna" qui est bien adapté aux tâches d'apprentissage multimodal.

Étape de génération de contenu basée sur instructions multimodales

Les instructions multimodales produites par l'étape LLM, ainsi que les jetons de sortie de LLM, sont ensuite transmis aux modèles de décodage. Pour la synthèse d'images, Next GPT utilise un modèle appelé "Stable Diffusion", pour la synthèse vidéo, il utilise "Xeroscope", et pour la synthèse audio, il utilise "Audio LDM". Il convient de noter que ces modèles de décodage n'ont jamais été formés avec un modèle comme Vikuna, donc ils doivent être Alignés pour fonctionner avec Next GPT en utilisant des couches de transformation basées sur les Transformers.

[🧩 Alignement du modèle Next GPT]

Dans cette section, nous explorerons en détail l'alignement du modèle Next GPT pour s'assurer que les différentes parties du modèle fonctionnent bien ensemble.

Alignement de l'encodeur

Pour aligner les parties de l'encodeur, une méthode appelée "alignement centré sur LLM" est utilisée. L'alignement se fait en utilisant des légendes générées par le modèle LLM pour une entrée donnée. Par exemple, si l'entrée est une image d'un chat et que le modèle LLM génère la légende "Un chat assis sur une chaise", les erreurs de rétropropagation sont utilisées pour aligner les couches de projection de l'encodeur.

Alignement du décodeur

Pour aligner les parties du décodeur, une méthode appelée "alignement d'instruction suivante" est utilisée. L'objectif est de minimiser la distance euclidienne entre la sortie des Transformers du décodeur et la sortie produite par les encodeurs correspondants. Par exemple, pour les images, la sortie de l'encodeur de "Stable Diffusion" pour une légende d'image donnée est utilisée pour former les couches de projection du côté du décodeur.

Formation du modèle Next GPT

La formation du modèle Next GPT nécessite de combler les lacunes d'apprentissage en effectuant un ajustement d'instructions. Les paramètres nécessaires à cet ajustement sont définis par un ensemble de paramètres appelé "Lora". Le modèle est aligné en utilisant un couple d'entrée-sortie donné et la rétropropagation des erreurs est utilisée pour ajuster les poids du modèle. Cependant, les ensembles de données existants pour l'apprentissage multimodal n'ont que des sorties de texte. Face à ce problème, les auteurs ont proposé une méthode appelée "modality switching instruction tuning" (MOSet), qui a permis de créer l'ensemble de données MOSet spécialement dédié à l'apprentissage multimodal.

🎯 Ensemble de données MOSet pour l'apprentissage multimodal

Dans cette section, nous mettrons en évidence l'ensemble de données MOSet, qui a été créé pour permettre à Next GPT d'être formé avec des données d'apprentissage multimodal. MOSet a été généré en utilisant le modèle GPT4 et en lui demandant de répondre à plus de 100 sujets différents qui nécessitent une planification, un raisonnement et une Perception pour répondre. Les conversations générées ont ensuite été filtrées et inspectées par des humains pour obtenir des dialogues de haute qualité. Cet ensemble de données a été nommé MOSet.

🔍 Utilisation du modèle Next GPT pour l'inférence

Dans cette section, nous examinerons comment le modèle Next GPT peut être utilisé pour l'inférence. L'entrée peut être du texte, de l'audio, de la vidéo ou des images. Dans le cas où l'entrée est du texte, l'inférence est assez simple, car les jetons de texte sont directement transmis à l'étape LLM sans utiliser de couches de projection supplémentaires. Si l'entrée est autre chose, comme une image avec du texte, elle passe par les couches de projection, qui transforment les caractéristiques et les transmettent à l'étape LLM. Dans cet exemple, l'instruction d'entrée suggérait qu'il serait préférable de créer un vlog pour montrer les progrès, et le modèle LLM a donc décidé d'utiliser le modèle de diffusion vidéo pour générer une vidéo. Incroyable, n'est-ce pas ? C'est ainsi que Next GPT se rapproche un peu plus de la manière dont les humains interagissent avec les images, les vidéos, l'audio et toutes les autres modalités.

📝 Conclusion

Dans cet article, nous avons exploré l'apprentissage multimodal et le modèle Next GPT, qui est le premier modèle à explorer le régime "n'importe-vers-n'importe" pour l'apprentissage multimodal. Nous avons discuté de son architecture, de son alignement, de sa formation et de l'ensemble de données MOSet qui a été créé pour permettre son apprentissage multimodal. Nous avons également examiné comment utiliser le modèle Next GPT pour l'inférence. Le développement de modèles comme Next GPT ouvre la voie à de nouvelles avancées dans le domaine de l'apprentissage multimodal, nous rapprochant ainsi d'une IA capable d'interagir de manière fluide avec toutes les modalités.

📚 Ressources complémentaires

FAQ

Q: Qu'est-ce que l'apprentissage multimodal ? R: L'apprentissage multimodal fait référence à l'utilisation de plusieurs modalités telles que le texte, les images, les vidéos et l'audio pour entraîner des modèles d'IA.

Q: Quelle est la différence entre le régime "n'importe-vers-un" et le régime "n'importe-vers-n'importe" en apprentissage multimodal ? R: Dans le régime "n'importe-vers-un", les modèles d'IA ne produisent qu'une seule modalité en sortie, généralement le texte. Dans le régime "n'importe-vers-n'importe", les modèles d'IA peuvent prendre n'importe quelle modalité en entrée et produire n'importe quelle modalité en sortie.

Q: Qu'est-ce que MOSet ? R: MOSet est un ensemble de données spécialement créé pour permettre à Next GPT d'être formé avec des données d'apprentissage multimodal. Il contient des dialogues de haute qualité générés par le modèle GPT4.

Q: Quels sont les modèles de décodage utilisés par Next GPT ? R: Next GPT utilise des modèles de décodage spécifiques pour chaque modalité. Pour la synthèse d'images, il utilise Stable Diffusion, pour la synthèse vidéo, il utilise Xeroscope et pour la synthèse audio, il utilise Audio LDM.

Most people like

Are you spending too much time looking for ai tools?
App rating
4.9
AI Tools
100k+
Trusted Users
5000+
WHY YOU SHOULD CHOOSE TOOLIFY

TOOLIFY is the best ai tool source.