Avec son intégration dans ChatGPT, l’IA de génération d’images d’OpenAI a énormément gagné en popularité. DALL·E 3 s’est également fait remarqué pour sa capacité à mieux respecter les prompts complexes et à intégrer des textes dans les images.
Ces points fort sont justement deux des grosses amélioration annoncées pour le nouveau Stable Diffusion 3. J’ai donc eu envie de comparer les résultats obtenu avec les deux modèles…
DALL·E 3
Qu’est ce que DALL·E 3 ?
DALL·E 3 est une intelligence artificielle générative de texte en image qui transforme les descriptions textuelles en visuels. Elle a été créée par OpenAI qui a partagé les détails de son entraînement et de son architecture dans l’étude Improving Image Generation with Better Captions rédigée par James Betker et son équipe.
L'avancée la plus notable de DALL·E 3 réside dans sa capacité à produire des images fidèles aux instructions données. En intégrant des légendes hautement descriptives, élaborées par un modèle de language optimisé, ils ont nettement renforcé la précision de DALL·E 3 par rapport aux demandes.
Comment utiliser DALL·E 3 ?
Pour utiliser DALL·E 3, vous aurez besoin de souscrire à un abonnement ChatGPT Plus - c’est en effet ChatGPT qui fait office d’interface pour utiliser DALL·E 3.
Créer une image avec DALL·E 3
- Connectez vous sur ChatGPT
- Donnez-lui une instruction du type “Génère une image de ...” ou “Crée une image à partir de ce prompt : …“
- ChatGPT va réviser et étoffer votre prompt avant de demander à DALL·E 3 de générer l’image et de vous l’afficher.
Vous pouvez ensuite demander à ChatGPT de créer des variations votre image, d’en changer les dimensions ou de la modifier. Par contre, vous ne pouvez pas voir le prompt exact utilisé avec DALL·E ni le modifier.
Stable Diffusion 3
Stable Diffusion 3 (SD3) est également un modèle d’IA pour la génération de texte en image. C’est le tout nouveau modèle annoncé par Stability AI (SAI) le 22 Février dernier - Il n’a pas encore été partagé publiquement mais est disponible via l’API de Stability et le bot Discord de Stable Artisan.
SAI et ses membres ont également partagés de nombreuses images générées par SD3 et leurs prompts sur leur blog et sur 𝕏 - Ce sont ces prompts que nous allons utiliser pour générer et comparer des images avec ChatGPT et DALL·E 3.
Comparaison entre SD3 et DALL·E 3
Comme nous utilisons des images choisies par l’équipe de Stability AI pour mettre en avant leur nouveau modèle, nous devons considerer qu’elles ne sont pas forcément le premier résultat obtenu avec un prompt mais plutôt le meilleur résultat obtenus après plusieurs essais.
Pour chaque prompt, nous avons donc générer au moins 4 images et choisis la meilleure comme base de comparaison.
Performances et capacités
SD3 et DALL-E 3 sont tous les deux excellents pour créer des images à partir de texte. Ils peuvent tous les deux suivre des instructions détaillées et à afficher clairement du texte dans les images.
Stable Diffusion 3 est plus efficace lorsqu’il s’agit de créer des images photoréaliste et sa nouvelle architecture ouverte et évolutive devrait permettre des évolutions et des capacités étonnantes et personnalisées. Mais DALL-E 3 se défend très bien et peut produire des images extrêmement créatives et visuellement impactantes.
Respect des prompts complexes
Si DALL·E 3 est célébré pour sa capacité à créer des images qui respectent mieux les prompts et descriptions complexe, les résultats partagés par SAI, indiquent que c’est aussi un point fort de Stable Diffusion 3. Ce dernier surpasserai même l’IA d’OpenAI sur ce point.
1. Translucent Pig
Prompt : Translucent pig, inside is a smaller pig
Ce prompt est relativement simple mais demande déjà une compréhension de la notion de à l’intérieur qui peut être un challenge pour des modèles plus anciens. Pour DALL·E 3 comme pour SD3, ca ne pose visiblement aucun problème.
2. Balanced Horse
Prompt : A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.
Ici, il y a un peu plus d’éléments distincts dans l’image, avec des positions ou des couleurs précises. Encore une fois, les deux IA n’ont aucun problème à comprendre le prompt et générer une image qui correspond.
3. Formes et couleurs
Prompt : Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
Plus complexe, ce prompt est un véritable challenge pour les IA générative. Même DALL·E 3 s’y emmêle les pinceaux - mais pas SD3 qui semble avoir tout compris !
4. 3 Bouteilles
Prompt : Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3
Moins complexe que le précèdent, ce prompt ne pose évidemment pas plus de problèmes à DALL·E 3 qu’à SD3. DALL·E 3 a parfois inversé l’ordre des couleur, mais il y au moins une image qui correspond à 100% et nous ne pouvons pas savoir si SD3 ne se trompe jamais non plus…
Génération de texte
L’autre point fort de DALL·E 3, c’est le texte. Il est en effet capable d’intégrer des mots, voire même des courtes phrases, dans les images qu’il génère. Et, évidemment, c’est une capacité largement mise en avant pour SD3 également…
1. SD3 en vetêments
Prompt : "SD3" text written with clothes
Pour les mots court, DALL·E 3 ne semble pas spécialement à la traine face à Stable Diffusion 3. L’un comme l’autre affiche correctement le “SD3” du prompt.
2. Logo Lykon
Prompt : a dog puppet wearing a hoodie with the logo "Lykon". The dog puppet is in front of a laptop on a desk
Ici aussi, DALL·E 3 et SD3 sont au coude à coude et il n’y a pas vraiment de différence dans la qualité des textes - ni des images d’ailleurs.
3. Phrase longue
Prompt: A beautiful painting of flowing colors and styles forming the words “The SD3 research paper is here!”, the background is speckled with drops and splashes of paint.
J’avoue que là, DALL·E 3 m’a agréablement surpris. Je le pensais moins bon avec les phrases complètes. Cependant, il montre toujours une faiblesse avec le mot “SD3” et ses textes sont moins bien finis.
4. Ecriture dans le ciel
Promp : Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy
Ce prompt mélange le texte et une description plus complexe. Ici, DALL·E 3 ne tient pas face à Stable Diffusion : il ne parvient pas à combiner le texte avec les elements graphiques qui composent l’image.
5. Deux textes différents
Prompt : Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
Stable Diffusion 3 peut visiblement comprendre les descriptions d’images qui reprennent deux textes distincts. Ce qui est par contre hors de portée pour DALL·E 3.
Conclusion
Fidèle à sa réputation, DALL·E 3 est déjà très bon pour ce qui est du respect des prompts complexes et de la génération de texte. A ce jours, c’est encore un des meilleurs modèle de génération de texte en image - particulièrement pour ces deux critères d’évaluation.
Grâce à cela, il reste une solution intéressante malgré son accès restreint (il n’est disponible que via l’abonnement payant à ChatGPT) et ses fonctionnalités limitées (pas d’accès direct au prompt, pas d’inpaiting ni de contrôle avancée du type Controlnet,…).
Mais ces avantages risquent de ne plus suffire face à l’arrivée de Stable Diffusion 3. Ce dernier se révèle en effet aussi bon, si ce n’est meilleur, que DALL·E 3 pour le respect des prompts. Et il se révèle bien meilleur lorsqu’il s’agit d’ajouter du texte dans les images. Et si il peut proposer la même flexibilités et les mêmes fonctionnalités avancées que ses prédécesseurs, nul doute que Stable Diffusion 3 va s’imposer face à DALL·E - à moins qu’OpenAI ne nous prépare également une surprise…
Ecrit par