Stable Cascade

Tout ce qu’il faut savoir pour comprendre et utiliser Stable Cascade

Stable Cascade est le nouveau modèle de génération d'images de Stability qui a été estimé 243% meilleur que SDXL en termes de qualité esthétique. Il comprend beaucoup mieux les instructions (prompts) et est jusqu’à deux fois plus rapide.
Avec Stable Cascade, vous pouvez donc générer des images encore plus belles avec des promps plus courtes et un temps de calcul réduit.
notion image

Stable Cascade en bref

Stable Cascade est un nouveau modèle de génération d'images publié par Stability AI. Il est basé sur sur l'architecture Würstchen et se revèle extrêmement facile à exécuter et à entraîner sur du matériel grand publique.
En effet, l'un des avantages les plus significatifs offerts par Stable Cascade est son accessibilité en termes de coûts de formation sans compromettre la qualité ou la vitesse. Comparé à Stable Diffusion, qui compresse les images de 1024×1024 à 128×128, Stable Cascade réalise une réduction remarquable, comprimant la même résolution à 24×24. Cela se traduit par des vitesses d'inférence plus rapides et des coûts de formation moins élevés.
Stable Cascade dépasse également Stable Diffusion XL de 1,4 milliard de paramètres, promettant des vitesses d'inférence plus rapides sans compromettre les détails ou la qualité. Sa structure sous-jacente comprend trois étapes : la première étape (A) se concentre sur l'aspect VAE avec 20 millions de paramètres. La seconde (B) est un étape de diffusion, et peut utiliser un modèle de diffusion de 700 millions de paramètres ou une version plus détaillée de 1,5 milliard de paramètres. Enfin, la dernière étape (C) propose des modèles encore plus grands pour des applications de fine-tuning.
📌
Points clefs à propos Stable Cascade
  • Stable Cascade n’est pas un modèle Stable Diffusion - il repose sur une architecture technique complètement différente.
  • Cette architecture le rend plus facile et léger à entrainer et fine-tuner.
  • Il est optimisé pour générer des images en 1024x1024, tout comme SDXL.
  • Stable Cascade est publié sous licence qui n’autorise que des utilisations non-commerciale du modèle.

Images créées avec Stable Cascade

Voici quelques exemples d’images générée avec Stable Cascade par Stability AI et les premiers utilisateurs de cette nouvelle IA sur Reddit.
notion image
 
notion image
 
https://www.reddit.com/r/StableDiffusion/comments/1apue8j/some_fresh_stable_cascade_images_for_you_to_enjoy/
https://www.reddit.com/r/StableDiffusion/comments/1ar359h/cascade_can_generate_directly_at_1536x1536_and/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/
https://www.reddit.com/r/StableDiffusion/comments/1aqgvsc/impressed_with_stable_cascade_in_following/
 
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/
https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

Demo de Stable Cascade

La démo de Stable Cascade est disponible sur HuggingFace
https://huggingface.co/spaces/multimodalart/stable-cascade

Présentation de Stable Cascade

Entrainement et Fine Tuning

Contrairement à Stable Diffusion XL qui utilise un modèle unique de grande taille, Stable Cascade utilise un enchainement de trois modèles plus petits et distincts, désignés comme les étapes A, B et C. Cette architecture modulaire offre des avantages majeurs en termes d'efficacité de formation et de personnalisation.
La première étape, l'étape C, transforme les instructions textuelles en espacé compactés, le latent space, de 24×24 pixels. Les étapes A et B décodent ensuite ces espaces latents en images haute résolution complètes.
En séparant la génération d'images à partir du texte du décodage des images, le modèle initial conditionnel au texte peut être entraîné et affiné beaucoup plus efficacement - y compris pour des ControlNets et des LoRAs. Selon Stability AI, l'affinage de l'étape C seul offre une réduction des coûts de 16 fois par rapport à l'affinage d'un modèle Stable Diffusion de taille équivalente.
Les étapes A et B peuvent éventuellement être fine-tunés pour un contrôle supplémentaire, mais cela serait comparable au fine-tuning du VAE dans un modèle Stable Diffusion classique. Pour la plupart des utilisations, cela fournira un avantage supplémentaire minimal et nous suggérons simplement d'entraîner l'étape C et d'utiliser les étapes A et B dans leur état original.

Qualité des images

Dans les évaluations de Stability AI, Stable Cascade a surpassé d'autres modèles d'art IA de premier plan, y compris SDXL, tant en termes de qualité d'image qu'en termes d'alignement avec les instructions et respect du prompt.
Comparaisons entre Stable Cascade (30 étapes d'inférence) à Playground v2 (50 étapes d'inférence), SDXL (50 étapes d'inférence), SDXL Turbo (1 étape d'inférence) et Würstchen v2 (30 étapes d'inférence).
Comparaisons entre Stable Cascade (30 étapes d'inférence) à Playground v2 (50 étapes d'inférence), SDXL (50 étapes d'inférence), SDXL Turbo (1 étape d'inférence) et Würstchen v2 (30 étapes d'inférence).
Malgré ses 1,4 milliard de paramètres de plus que SDXL, Stable Cascade bénéficie de temps d'inférence plus rapides. Selon Stability AI, l'espace latent compressé permet en effet au modèle de générer des images complexes plus efficacement grâce à son approche multi-étapes.
Autre amélioration remarquable : Stable Cascade a des capacité typographiques impressionnantes. Il dépasse largement SDXL lorsqu’il s’agit de générer du texte à l’intérieur des images.
Si d'autres technologies d'IA de génération d'images à partir de texte, telles qu'Ideogram et DALL-E 3 ont également fait des progrès ces derniers mois pour améliorer la génération de texte, les résultats restaient mitigés. D’après les premiers tests, Stable Cascade généré les textes de manière plus constante, même si c’est encore loin d'être parfait.

Articles et tutoriels sur Stable Cascade