Stable Diffusion 3.0

Tags

Do not index

mydate

Flag

Stability AI présente aujourd'hui en avant-première la nouvelle génération de son modèle phare d’IA générative texte-image : Stable Diffusion 3.0.

Au cours des derniers mois, Stability AI a amélioré et partagé de nombreux modèles d'images chacun d'entre eux présentant des niveaux croissants de sophistication et de qualité : La version SDXL lancé en juillet dernier a considérablement amélioré le modèle de base Stable Diffusion et a été suivie d’une version Turbo à la fin de l’année dernière. La semaine dernière encore, Stability AI a partagé un modèle avec une architecture innovante nommé Stable Cascade. La société cherche maintenant à aller encore plus loin.

Le nouveau modèle Stable Diffusion 3.0 va améliorer la qualité des images et les performances de génération à partir de prompts multi-sujets. Il offrira également une écriture nettement meilleure que les modèles précédents de Stable Diffusion avec une orthographe plus précise et des textes plus cohérente dans les images générées. La gestion des textes a été un point faible de Stable Diffusion dans le passé et sur lequel des concurrents tels que DALL-E 3, Ideogram et Midjourney se sont fortement améliorés récemment.

Stable Diffusion 3.0 est annoncé comme une suite de allant de 800 millions de paramètres (moins que SD 1.5) à 8 milliards de paramètres (plus que le SDXL), afin de pouvoir fonctionner sur une variété de matériel. Vous aurez probablement encore besoin d'un GPU sérieux et d'une configuration destinée à l'apprentissage automatique, mais vous ne serez pas limité à une API comme c'est généralement le cas avec OpenAI et les modèles de Google.

Diffusion transformers + Flow matching = 🚀

Comme l’explique le CEO de Stability, Emad Mostaque, Stable Diffusion 3 est un Diffusion Transformer, un nouveau type d'architecture similaire à celui utilisé dans le récent modèle vidéo d'OpenAI, Sora. Il ajoute que Stable Diffusion 3 est le véritable successeur du modèle original Stable Diffusion.

Stability AI a en effet expérimenté plusieurs types d'approches et conception de modèles pour la génération d'images. Stable Cascade, partagé au début du mois utilise ainsi l'architecture Würstchen pour améliorer les performances et la précision.

Stable Diffusion 3.0 adopte une approche encore différente en utilisant des Diffusion transformers.

Les transformers sont la base d'une grande partie de la révolution de l'IA générative et sont largement utilisés par les modèles de génération de texte comme ChatGPT. La génération d'images relève quant à elle en grande partie du domaine des modèles de diffusion.

Le rapport de recherche qui détaille les transformateurs de diffusion (DiTs) explique qu'il s'agit d'une nouvelle architecture pour les modèles de diffusion qui remplace le U-Net couramment utilisée par un transformateur opérant sur les images latentes. L'approche DiTs permetrait notament un calcul plus éfficient et efficace et de surpasser les autres formes de génération d'images de diffusion.

L'autre grande innovation dont bénéficie Stable Diffusion 3 est la correspondance des flux (Flow matching). Le rapport de recherche explique qu'il s'agit d'une nouvelle méthode d'apprentissage des flux de normalisation continus (CNF) pour modéliser des distributions de données complexes. Selon les chercheurs, l'utilisation du conditional flow matching des flux (CFM) permet un apprentissage plus rapide, un échantillonnage plus efficace et de meilleures performances par rapport aux procédés de diffusion classique.

Stable Diffusion sait maintenant écrire

L'amélioration des textes dans Stable Diffusion 3.0 est le résultat de plusieurs améliorations que Stability AI a intégrées dans le nouveau modèle.

"Cela est dû à la fois à l'architecture du transformateur et aux encodeurs de texte supplémentaires", a déclaré M. Mostaque qui affirme également que des phrases complètes sont désormais possibles, tout comme un style cohérent.

L’après Stable Diffusion 3.0

Bien que Stable Diffusion 3 soit initialement présentée comme une technologie d'IA de génération de texte à image, elle servira probablement de base à d'autres avancés. Au cours des derniers mois, Stability AI a également développé des capacités de génération d'images 3D et de vidéos.

"Nous créons des modèles ouverts qui peuvent être utilisés n'importe où et adaptés à n'importe quel besoin", a également déclaré M. Mostaque. "Il s'agit d'une série de modèles de différentes tailles qui serviront de base au développement de notre prochaine génération de modèles visuels, y compris la vidéo, la 3D, etc.

Avec cette annonce, Stable Diffusion semble vouloir être l'IA générative en marque blanche dont vous ne pouvez pas vous passer, plutôt que l'IA générative de grande marque dont vous n'êtes pas sûr d'avoir besoin. À cette fin, Stability AI améliorera également ses outils, afin d'abaisser la barre d'utilisation, bien que, comme pour le reste de l'annonce, ces améliorations soient actuellement laissées à notre imagination.

Liste d’attente et accès

Avec cette annonce, Stable Diffusion 3 n’a donc pas encore rendu accessible. Stability AI a cependant ouvert une liste d’attente à laquelle vous pouvez vous inscrire pour être parmi les premiers à avoir accès au nouveau modèle.

Stable Diffusion 3.0 arrive !