SD3 Medium est enfin disponible au téléchargement !

Stable Diffusion 3 Medium

La taille n’est pas toujours le plus important - surtout quand il s'agit d'exécuter des modèles d'IA générative sur du matériel standard. Stability AI l'a bien compris en publiant Stable Diffusion 3 Medium.

La première version de Stable Diffusion 3 avait été dévoilée en avant-première le 22 février, suivie d'une mise à disposition publique via une API le 17 avril. Hier, un nouveau pas dans la diffusion du modèle a été franchis avec la publication des fichiers checkpoints du modèles Medium, téléchargables depuis HuggingFace.

Stable Diffusion 3 est donc le nouveau modèle de génération d’image de Stability AI et se déclinera en une famille de modèle de différentes tailles. Le plus grand, SD3 Large, fera par exemple 8 Milliards de paramètres - alors que celui partagé hier, SD3 Medium, n’en fait que 2 milliards.

Cette petite taille peut cependant être un avantage car elle permet d’utiliser et executer Stable Diffusion sur des ordinateurs grand publique avec moins de puissance de calcul.

SD3 sur un GPU de 5 Go

Alors que de nombreux modèles de génération d’image requièrent de puissante carte graphique ou GPU Nvidia dernier cri, la version Medium du nouveau modèle Stability AI change le paradigme et se veut executable avec des configuration plus légère.

Le minimum requis pour exécuter Stable Diffusion Medium n'est que de 5 Go de VRAM. De cette façon, le modèle fonctionnera sur une grande variété de PC grand public et d'ordinateurs portables haut de gamme.

Evidemment ce minimum requis n'est qu'un minimum. Stability AI recommande quand même 16 Go de VRAM pour une utilisation vraiment confortable et optimale, ce qui est peut-être un peu juste pour la plupart des ordinateurs portables, mais n'est pas déraisonnable non plus.

Petit mais costaud

Malgès cette taille réduite et la quantité de paramètres relativement faible (2 milliards, contre 6 pour SDXL) SD3 Medium devrait offrir un niveau de qualité exceptionnellement élevé, comparable à celle de SD3 Large pour toute une série de fonctionnalités.

Selon Stability AI, SD3 Medium se distingue par son photoréalisme, le respect des prompts, sa capacité à générer des textes et les possibilité de fine-tuning.

Les utilisateurs peuvent en effet s’attendre à des images de qualité avec SD3 Medium grâce au VAE (Variational Autoencoder) à 16 canaux, qui permet à SD3 de fournir plus de détails par mégapixel que n'importe quel modèle antérieur.

SD3 s’est également déjà demarqué par sa capacité à respecter les prompts et leurs détails qui découle d’une remarquable capacité de compréhension du langage naturel. SD3 est par exemple capable de comprendre une description reprenant plusieurs éléments de l’image et leur position.

Le partage des fichiers du modèle ouvre également la voie au fine-tuning du modèle et au développement de modèle communataires basé dessus comme c’est le cas avec les version précédente de Stable Diffusion.

Mais la caractéristique la plus marquante de SD3 Medium reste sa légèreté en termes de ressources nécessaires qui en fait un choix idéal pour les environnements où la gestion des ressources et l'efficacité sont essentielles.

Libre mais pas forcément gratuit

Stable Diffusion 3 Medium est publié sous licence libre non-commerciale et sous la nouvelle licence Stability Non-Commercial Research Community License.

La première autorise les utilisation non-commerciales du modèle et permet aux chercheurs et amateurs d’IA de l’utiliser sans contraintes. La seconde est disponible pour 20$ par mois et permet aux créateurs et aux professionels de construire des offres commerciales basée sur SD3.