Le nouveau modèle Imagen de Google Brain est encore plus impressionnant que Dall-E 2 !

Si vous pensiez que Dall-e 2 avait d'excellents résultats, attendez de voir ce que ce nouveau modèle de Google Brain peut faire. Dalle-e est incroyable, mais les résultats manquent souvent de réalisme, et c'est ce à quoi l'équipe de Google Brain s'est attaquée avec ce nouveau modèle surnommé Imagen. Ils partagent de nombreux résultats sur leur page de projet ainsi qu'un benchmark qu'ils ont introduit pour comparer les modèles texte-image où ils surpassent clairement Dall-E 2 et les approches de génération d'images précédentes. Découvrez les résultats dans la vidéo en fin d’article !

Ce benchmark est super cool, car nous voyons de plus en plus de modèles de texte en image, et il est assez difficile de comparer les résultats — à moins que nous ne supposions que les résultats sont vraiment mauvais, ce que nous faisons souvent. Mais ce modèle, et dall-e 2, défient définitivement ces probabilités.

En une ligne : il s'agit d'un nouveau modèle de translation de texte à image que vous pouvez comparer à Dalle-E 2 avec plus de réalisme selon des testeurs humains.

Exemple de résultats. Image du site du projet Imagen.

Donc, tout comme Dall-E que j'ai couvert il y a un mois, ce modèle prend un texte comme "Un chien Golden Retriever portant un béret à carreaux bleus et un col roulé rouge à pois" et essaie de générer une image photoréaliste à partir de cette phrase étrange. Le point principal ici est qu'Imagen peut non seulement comprendre le texte, mais il peut également comprendre les images qu'il génère, car elles sont plus réalistes que toutes les approches précédentes.

Bien sûr, quand je dis “comprendre”, je veux dire son propre type de compréhension qui est différent du nôtre. Le modèle ne comprend pas vraiment le texte ou l'image qu'il génère. Il a effectivement une certaine connaissance à ce sujet, mais il comprend principalement comment ce type particulier de phrase avec ces objets précis devrait être représenté en utilisant des pixels sur une image. Mais je concède qu'il semble bien qu'il comprenne ce que nous lui envoyons lorsque nous voyons ces résultats !

Exemple de résultats. Image du site du projet Imagen.

De toute évidence, vous pouvez le tromper avec des phrases vraiment étranges qui ne pourraient pas sembler réalistes, comme celle-ci, mais Imagen dépasse parfois votre propre imagination et crée simplement quelque chose d'incroyable.

Architecture du modèle d'image. Image tirée du papier.

Pourtant, ce qui est encore plus étonnant, c'est comment cela fonctionne en utilisant quelque chose dont je n'ai jamais parlé sur le blogue ; un modèle de diffusion. Mais avant d'utiliser ce modèle de diffusion, nous devons d'abord comprendre la saisie de texte. Et c'est aussi la principale différence avec Dall-e. Ils ont utilisé un énorme modèle de texte, similaire à GPT-3, pour comprendre le texte du mieux qu'un système d'IA peut le faire. Ainsi, au lieu de former un modèle de texte avec le modèle de génération d'image, ils utilisent simplement un grand modèle pré-entraîné et le gèle afin qu'il ne change pas pendant la formation du modèle de génération d'image. D'après leur étude, cela a conduit à de bien meilleurs résultats, et il semblerait que le modèle comprend mieux le texte ainsi.

Donc, ce module de texte est la façon dont le modèle comprend le texte, et cette compréhension est représentée dans ce que nous appelons les encodages, ce que le modèle a été entraîné à faire sur d'énormes ensembles de données pour transférer les entrées de texte dans un espace d'informations qu'il peut utiliser et comprendre. . Maintenant, nous devons utiliser ces données textuelles transformées pour générer l'image, et, comme je l'ai dit, ils ont utilisé un modèle de diffusion pour y parvenir.

Mais qu'est-ce qu'un modèle de diffusion ?

Les modèles de diffusion sont des modèles génératifs qui convertissent des bruits Gaussiens aléatoires comme celui-ci en images en apprenant à inverser le bruit Gaussien de manière itérative. Ce sont des modèles puissants pour la super-résolution ou d'autres traductions d'image à image et, dans ce cas, utilisent une architecture U-Net modifiée que j'ai couverts à plusieurs reprises dans des articles précédents, donc je n'entrerai pas dans les détails architecturaux ici.

Fondamentalement, le modèle est formé pour débruiter une image à partir du bruit Gaussien, comme nous avons dit, qu'il oriente à l'aide des encodages de texte et d'une technique appelée guidage sans classificateur qui, selon eux, est essentielle pour le bon fonctionnement du modèle et clairement expliquée dans leur article. Je vous laisse le lire pour plus d'informations sur cette technique avec le lien en fin d’article.

Nous avons donc maintenant un modèle capable de prendre le bruit gaussien aléatoire et notre encodage de texte et de le débruiter suivant les encodages de texte pour générer notre image représentant ce texte. Mais comme vous le voyez sur la figure montrant le modèle ci-dessus, ce n'est pas aussi simple qu'il y paraît.

L'image que nous venons de générer est une très petite image, car une image plus grande nécessiterait beaucoup plus de calculs et un modèle beaucoup plus grand, ce qui n'est pas viable. Au lieu de cela, nous générons d'abord une image photoréaliste en utilisant le modèle de diffusion dont nous venons de parler, puis utilisons d'autres modèles de diffusion pour améliorer la qualité de l'image de manière itérative. J'ai déjà couvert les modèles de super-résolution dans les vidéos précédentes, donc je n'entrerai pas dans les détails ici, mais faisons un bref aperçu. Encore une fois, nous voulons avoir du bruit et non une image, nous corrompons donc cette image basse résolution initialement générée avec à nouveau du bruit gaussien, et nous entraînons notre second modèle de diffusion pour prendre cette image modifiée et l'améliorer.

Architecture du modèle d'image. Image tirée de l'article, éditée par l'auteur.

Ensuite, nous répétons ces deux étapes avec un autre modèle, mais cette fois en utilisant uniquement des patchs de l'image pour faire le même rapport de mise à l'échelle et rester informatiquement viable, comme on le voit ci-dessus.

Et voilà ! Nous nous retrouvons avec notre image haute résolution photoréaliste !

Regardez plus de résultats dans la vidéo sous-titrée en français:

Bien sûr, ce n'était qu'un aperçu de ce nouveau modèle passionnant avec des résultats vraiment cool. Je vous invite définitivement à lire leur excellent article (en lien ci-bas) pour une compréhension plus approfondie de leur approche et une analyse détaillée des résultats.

Et vous, pensez-vous que les résultats sont comparables à dall-e 2 ? Sont-ils meilleurs ou pires ? Je pense que c'est le principal concurrent de dall-e à l'heure actuelle. Faites-moi savoir ce que vous pensez de cette nouvelle publication Google Brain et de l'explication.

J'espère que vous avez apprécié cet article, et si c’est le cas, ce serait génial si vous pouviez prendre quelques secondes pour laisser un like et un commentaire sous la vidéo pour soutenir mon travail et suivre le blog pour rester à jour avec des nouvelles passionnantes sur l'IA !

Je vous verrai la semaine prochaine avec un autre article incroyable!

Références

►Regardez la vidéo et supportez ma chaîne YouTube: https://youtu.be/qhtYPhPWCsI
►Papier: Saharia et al., 2022, Imagen — Google Brain, https://gweb-research-imagen.appspot.com/paper.pdf
►Lien du projet: https://gweb-research-imagen.appspot.com/
►Ma Newsletter (anglais): https://www.louisbouchard.ai/newsletter/

Louis-François Bouchard

Hello! Je suis Louis-François Bouchard, de Montréal, Canada, aussi connu sous le nom de 'What's AI' et j'essaie de partager et de vulgariser tout ce qui est en lien avec l'intelligence artificielle. Mon objectif est de démystifier la «boîte noire» de l'IA pour tous et de sensibiliser les gens aux risques de son utilisation.

https://www.youtube.com/channel/UCIUgms0TE2WhQijbU-IMYyw
Précédent
Précédent

Dalle mini est incroyable - et VOUS pouvez l'utiliser !

Suivant
Suivant

Comment Uber utilise l'IA pour mieux vous servir