Après l'accueil mitigé du dernier modèle texte-image de Stability AI, Stable Diffusion 3, la communauté de l’IA générative s’intéresse de plus en plus à d’autres modèles de fondation et à la possibilité de créer un modèle qui respect d’avantage les idéaux open source du projet d’origine.
C’est dans ce contexte que sort AuraFlow 0.1, un nouveau modèle plus que prometteur…
AuraFlow v0.1
Qu’est-ce qu’AuraFlow ?
AuraFlow est un nouveau modèle de génération d'images à partir de texte, développé par Simo (à qui on doit déjà l’intégration du concept de LoRA dans Stable Diffusion) et l’équipe de Fal.ai.
Il s'agit d'un modèle de génération d’image qui se veut être la plus grande alternative open source à Stable Diffusion 3.
Selon ses développeurs, il a été conçu pour offrir des performances de pointe tout en restant entièrement open source. Il s’agirait aujourd’hui du plus grand modèle de ce type à être complètement ouvert.
Caractéristiques techniques
D'après les informations partagées dans l’annonce d’AuraFlow v0.1, voici quelques-unes des principales caractéristiques techniques du modèle :
- Utilisation de blocs DiT (Diffusion Transformer) plutôt que les blocs MMDiT plus complexes, pour une meilleure efficacité de calcul.
- Optimisations avec l'utilisation de torch.compile pour accélérer l'entraînement.
- Utilisation de la technique de zero-shot learning rate transfer pour trouver de bons hyperparamètres sans avoir à tout balayer.
- Recaptage complet des images du jeu de données pour améliorer la qualité des instructions.
- Architecture plus large et plus courte, suivant les recommandations des travaux sur les lois d'échelle.
Au final, le modèle entraîné compte 6,8 milliards de paramètres et atteint des scores de 0,703 sur la métrique GenEval, avec l'aide d'un pipeline d'amélioration des prompts.
Comment utiliser AuraFlow v0.1 ?
AuraFlow en ligne
Si vous voulez essayer quelques générations en vitesse, essayez la demo en ligne sur le site de Fal.AI - Vous pourrez générer des images gratuitement et voir en quelques minutes ce que ce nouveau modèle à dans le ventre ?
AuraFlow dans ComfyUI
Si vous voulez aller plus loin, sachez que le modèle est déjà compatible avec la dernière version de ComfyUI. Mettez à jour votre installation de ComfyUI et téléchargez le modèle sur HuggingFace pour l’intégrer à vos workflows.
Accueil de la communauté
La sortie d'AuraFlow est plutôt bien accueillie par la communauté des utilisateurs de Stable Diffusion. De nombreux commentaires enthousiastes ont été publiés sur Reddit et saluent l'arrivée d'un modèle open source de si grande taille.
Sur le serveur discord FR Diffusion, plusieurs utilisateurs ont également partagé leur premières impressions positives.
De même, sur Hacker News, les premiers retours sont positifs, même s'il certains remarquent que le modèle présente encore quelques défauts au niveau des mains et de plusieurs parties du corps humain (un problème récurent avec les modèle de ce type).
En résumé, AuraFlow se présente comme une alternative open source de choix à Stable Diffusion 3, avec des performances prometteuses. Son arrivée est très bien accueillie par la communauté, qui semble ravie de disposer d'un tel modèle en open source. Les développeurs prévoient de continuer à l'améliorer dans les prochains mois.
Nouvelles Versions
Deux nouvelles versions d’AuraFlow sont déjà sorties depuis la publication du premier AuraFlow 0.1 :
- AuraFlow 0.2 : Se distingue surtout par un respect des prompts exceptionnel.
- AuraFlow 0.3 : Améliore un peu l’esthétique des images - au prix d’une grosse perte dans le respect des prompts.
Pour aller plus loin :
- L’annonce détaillée du modèle sur le blog de de Fal.ai
- La page du modèle sur HuggingFace (avec le fichier .safetensor à télécharger)
- Review en video : AuraFlow, A first look
Ecrit par