Une semaine après la publication et le partage de Stable Diffusion 3 Medium par stability AI, il est temps de faire un petit point sur ce modèle et ce qu’il annonce (ou pas) pour la communauté des utilisateurs de Stable Diffusion et l’IA générative.
Que vaut SD3 Medium ?
C’est évidemment la question que tout le monde s’est posée à la sortie du modèle. Stability AI promettait que même avec “seulement” 2 milliards de paramètres, SD3 Medium serait capable de générer des images de grande qualité et pourrait rivaliser avec les autres IA de génération d’images.
Même si le modèle n’est pas complètement mauvais, on peut aujourd’hui dire que cette promesse n’est pas vraiment tenue.
Les Points Forts de SD3 Medium
Il faut cependant reconnaitre que le modèle a quelques capacités intéressantes et est même à la hauteur de certaines attentes.
Génération de textes
C’était l’une des grosses promesses de Stable Diffusion 3 et sur ce point, SD3 Medium se révèle plutôt bon - voire très bon.
Non seulement il est capable de générer des images avec un ou deux mots, mais il peut même aller plus loin et reprendre des phrases complètes dans les images. Même si cela reste imparfait, SD3 est probablement le modèle avec les meilleures capacités textuelles actuellement.
Détails et textures
De nombreux utilisateurs ont pu constater que le nouveau Stable Diffusion 3 pouvait atteindre un très bon niveau de finition dans le détails et les textures des objets. Le rendu de la peau humaine et des visages est également très bon - sauf lorsqu’on tombe sur les corps déformés et déstructurés (voir plus bas)
Respect du prompt
C’était une autre grosse promesse du modèle et là aussi, le modèle ne déçoit pas - mais sans être pour autant révolutionnaire par rapport à d’autres modèles comme DALL-E.
SD3 Medium est en effet capable de comprendre des prompts longs avec des elements différents positionnés dans l’image. Il s'emmêle parfois un peu les pinceaux, mais globalement il parvient à suivre les prompts avec précision.
Finetuning
Le partage des fichiers du modèle était également attendu pour voir comment il pouvait être finetuné ou ré-entrainer pour améliorer ses capacités ou lui apprendre de nouveaux style et concepts. La possibilité de modifier et adapté le modèle est une des force de Stable Diffusion et est à l’origine de fonctionnalités devenues essentielles aux créateurs comme les LoRAs ou ControlNet.
Les premiers essais partagés par des créateurs semblent promoteurs et démontrent qu’il est effectivement possible de finetuné le modèle. SD3 a donc le même potentiel que ses prédécesseurs dans ce domaine.
Les Points Faibles de SD3 Medium
Mais tout n’est pas rose aux pays de Stable Diffusion 3, que du contraire. Le modèle a de vrais faiblesses qui déçoivent :
Problème avec le corps humain
SD3 Medium a d’énormes difficulté à représenter correctement les corps humain - particulièrement les femmes. Certaines images, comme une femme allongée dans l’herbe ou un homme assis sur une chaise, semblent pratiquement impossible à obtenir : le corps sont absurdes et découpés, avec des membres absents, difformes ou disproportionnés,…
Problème avec les mains
Cette version de Stable Diffusion ne semble avoir fait aucun progrès dans la génération des mains. On est a peu près au même niveau que le SDXL de base - alors que des finetuning de celui-ci ont déjà montré qu’on pouvait faire beaucoup mieux.
Censure excessive
Le modèle semble en outre souffrir d’un mécanisme de bridage, censé empêcher la génération d’image X et le détournement de Stable Diffusion a des fins non-éthiques. Le problème c’est que ce mécanisme semble s’appliquer au détriment de la qualité des images.
Certains pensent que le même mécanisme, ou la volonté de limiter les possibilités du modèle, sont à l’origine de son incapacité à créer des corps humains.
Au final, SD3 medium ne propose donc pas vraiment de réelle amélioration dans la qualité des images générées - ses rivaux comme Midjourney ou DALL-E ou ses prédécesseurs comme SDXL et Stable Cascade font aussi bien, voire mieux, en terme de qualité et d’esthétique.
Le souci des licences
L’autre grande déception pour la communauté Stable Diffusion tient aux modalités de partage et de licence du modèle.
Stability AI a en effet décidé de le partager avec une double licence : d’un côté une licence gratuite (pour l’utilisation personnelle et la recherche) et une licence commerciale.
Le souci c’est que ces licences ne sont pas du tout Open Source et semblent être très restrictives, voire trop restrictives. Ce sont particulièrement les possibilités de finetuning et d’utilisation avancées du modèle permises par la licence gratuite qui semblent insuffisantes.
Quel avenir pour SD3 ?
Couplé aux capacités plutôt décevantes du modèle, cette question de licence et de droit d’utilisation a refroidi de nombreux créateurs qui boudent désormais SD3 Medium.
Ce constat, couplé à la situation financière difficile de Stability AI et les démissions toujours plus nombreuses au sein de ses équipes laissent aujourd’hui peu d'espoir quant à l'avenir de SD3 lui-même.
Rien n’est certains mais il est devenu difficile de croire que Stable Diffusion 3, tels que créé et partagé par Stability AI, sera le prochain grand modèle de génération d’image ou le digne successeur des versions 1.5 et SDXL qui occupe les devants de la scène depuis deux ans.
On s'attend donc plutôt à voir de nouveaux modèles Open Source prendre le pas sur Stable Diffusion : PixArt Sigma, Hunyuan et Lumina semblent être les meilleurs candidats.
D’autant que que le créateur de ComfyUI qui travaillait avec Stability AI vient d’annoncer son départ et le lancement du projet Comfy.org qui vise à développer un véritable ecosystème OpenSource pour l’IA générative qui ne se limitera clairement pas à Stable Diffusion et aux modèle de Stability.
Toutes les images illustrant cet article sont issues des images créées avec SD3 Medium et partagées par diffèrents créateurs sur sa page Civitai - cliquez sur une image pour en voir la source (et, en général, les paramètres de génération).
Ecrit par