Depuis la sortie de Stable Diffusion 1.5, la génération d’image de type mange ou anime est une utilisation populaire de l’IA générative. La possibilité de fine-tuner ou entrainer ses propres modèles a également permis l’apparition de nombreux checkpoint spécialisés dans ce genre.
En 2022, un modèle en particulier, Anything V3.0 avait beaucoup fait parler de lui et séduit de nombreux utilisateurs. Depuis, des dizaines de modèle sont sortis, complétés par des milliers de LoRAs. Au point qu’il est parfois difficile de savoir quoi choisir pour se lancer dans la création d’anime avec Stable Diffusion.
Un nouveau modèle qui sort du lot vient cependant d’être annoncé. Après quelques tests, il se révèle extrêmement efficace et je pense qu’il est possiblement le meilleur modèle actuel pour créer ce type d’image - encore plus si vous n’avez pas beaucoup d’experience dans le domaine et voulez pouvoir rapidement créer des images d’anime ou de mangas de qualité.
Animagine XL - série 3
Annoncé le 10 Janvier 2024, Animagine XL 3.0 est, comme son nom l’indique, la troisième version du modèle créé par Linaqruf. C’est aussi le premier qu’il partage sous le nom de Cagliostro Research Lab - une équipe de développeurs et experts IA dont le but est de rendre la création d'anime accessible aux enthousiastes et aux créateurs du monde entier au travers des modèles IA open-source.
Avec plus de 500 heures d’entrainement et 1,25 millions d’images dans son dataset, Animagine XL 3.0 a été créé avec l’ambition de devenir le meilleur modèle open source de génération d’animes.
Un peu plus de 2 mois après la sortie de la version 3.0, un nouveau Animagine XL 3.1 est sorti le 18 Mars 2024. Cette nouvelle itération est la suite directe du modèle précèdent avec des références améliorées, de nouveaux tags esthétique (voir plus bas) et la correction de phénomène de surexposition constaté avec la V3.
Aux heures et images d’origine, Animagine XL 3.1 ajoutes plus de 800.000 nouvelles images soigneusement taguée et classée et 350 nouvelles heures d’entrainements.
Animagine XL dispose ainsi d’excellentes connaissances des animes et d'une très bonne compréhension des prompts. Il peut également générer des mains avec une excellente anatomie.
Installer Animagine XL
Animagine XL est un checkpoints, un modèle complet à installer comme modèle principal pour la génération d’image. Il est disponible sur plusieurs plateforme d’où il peut être téléchargé :
Avec Fooocus, A1111 ou ComfyUI, vous devez simplement ajouter directement le fichier
animagine-xl-3.1.safetensors
dans le repertoires /checkpoints
de votre installation. Le modèle est également directement disponible dans le moteur de recherche de modèle de Stability Matrix et Diffus en et vous pouvez donc l’y installer en un clic.Utiliser Animagine XL
Animagine XL a été entrainé de manière assez stricte, avec un soin particulier apporté aux description des images de sorte qu’il est optimisé pour fonctionner avec certains réglages et en utilisant une structure de prompt précise.
Paramètres recommandés
Les créateurs recommandent d'utiliser une CFG Scale d'environ 5-7, de ne pas dépasser les 30 steps et un d'utiliser l’échantillonneur Euler Ancestral. Cette configuration optimise la vitesse de configuration sans compromettre la qualité des résultats.
→ Sauf indication contraire, ce sont donc ces paramètres que j’ai utilisé pour toutes les images générés avec AnimagineXL qui illustrent cet article.
Paramètres Animagine XL 3.0 :
- guidance_scale: 7
- sampler: Euler A
- num_inference_steps : 27
Ecrire un prompt pour Animagine XL
Selon les créateurs du modèle, le prompt idéal commence par le tag 1girl ou 1boy selon que le personnage désiré soit féminin ou masculin, suivis du nom du personnage, de la série ou franchise dont il est issus. Viennent ensuite les tags et éléments descriptifs de l’image et enfin les tags complémentaires de style ou de qualité.
Voici quelques exemples d’images générées avec des prompts structurés de cette manière.
Vous pouvez bien sûr utiliser la même structure pour générer de nouveaux personnages - il suffit pour cela de donner plus de détails sur l’apparence du personnage plutôt que de le nommer.
Prompt négatif ?
Avec SDXL les prompts négatifs sont devenu moins importants. Le seuls que je recommande vraiment est le “explicit, nsfw” comme expliqué plus bas.
Cependant, de nombreux exemples partagés par les auteurs reprennent aussi le prompt négatif suivants que vous pourriez vouloir utiliser :
“lowres, worst quality, low quality, signature, artist name, watermark”
Personnages connus
Comme le montre les exemples ci-dessus, Animagine XL 3.1 a été entrainé pour connaitre de très nombreux personnages d’anime. Près de 5000 personnage issues de l’univers animes sont ainsi déjà connu du modèle et peuvent être générés sans l’aide de LoRA.
Les créateurs d’Animagine XL estime en effet que la multiplication des LoRAs de personnages est devenue incontrôlable : Si il faut 1 LoRA différents par personnage, il faut 2800 LoRA pour 2800 personnages. Avec un taille moyenne de 50MBs de LoRA, ca nous fait donc 140 GBs pour stocker tous ces LoRAs. Qu’il faudra encore charger, lister, valider,… Bref, c’est ingérable !
Animagine XL entend résoudre cela en étant entrainé pour connaitre déjà un très grands nombres de personnages en détails - et ainsi pouvoir en générer des images à partir de leur seul nom. Si vous indiquez Monkey D. Luffy, vous obtiendrez une image de Luffy ; si vous indiquez Arima Kana, vous en obtiendrez une d’Arima Kana. C'est aussi simple que cela !
Avant d’utiliser un LoRA avec Animagine XL 3.1, essayez donc d’abord un prompt qui reprend le nom du personnage voulu et de sa série / franchise - il est fort possible qu’il soit déjà connu du modèle.
Linaqruf a partagé une liste de près de 4000 personnages les plus fréquents dans les données d’entrainement et qui peuvent donc être facilement générés.
A noter que cette liste n’est pas exhaustive et ne reprend pas nécessairement tous les personnages connus du modèle… Disons qu’elle en reprend les principaux.
Cette liste peut être directement utilisé comme wildcards avec Fooocus ou d’autres interfaces qui disposent de cette fonctionnalité.
Tags et descriptions
Même si Animagine XL 3.1 est optimisé pour un certains format de prompts utilisant surtout des tags, vous pouvez aussi l’utiliser comme un autre modèle, en écrivant des prompt plus descriptifs qui fonctionneront également.
La méthode recommandé reste cependant d’utiliser des tags et mots clefs qui sont plus précis et vous donneront plus de contrôle sur l’image. Il faut cependant prendre l’habitude d’écrire ses prompts de cette manière et, surtout, connaitre les tags les plus efficaces.
L’équipe de Cagliostro a partagé certains tags qui ont été utilisés pour l’entrainement du modèle et son donc très bien pris en compte :
Modificateurs de qualité
Ces tags sont basé sur un score de qualité des images du dataset et sont, du meilleur au moins bon :
Tags | Score de qualité |
masterpiece | >150 |
best quality | 100-150 |
high quality | 75-100 |
medium quality | 25-75 |
normal quality | 0-25 |
low quality | -5-0 |
worst quality | <-5 |
Les tags de mauvaise qualité comme worst quality et low quality peuvent sembler inutiles - mais vous pouvez également les utilisez en prompt négatif pour améliorer la qualité de vos images.
Dans les données d’entrainement, un (très) grand nombre d’images de qualité masterpiece et best quality sont également des images au contenu explicite (nsfw) -Pour éviter ces contenus, il est recommandé d’inclure des tags de notation en lorsque vous les utiliser :
- Ajouter “safe” au prompt en plus de “masterpiece, best quality”
- Ajouter “explicit, nsfw” au prompt négatif
Modificateurs esthétiques
En plus de tags de qualités, AnimagineXL 3.1 reconnait 4 tags que vous pouvez utiliser dans vos prompts (positifs ou négatifs) pour en modifier l’esthétique. Je ne suis pas sûr de saisir le sens de ces tags et la manière dont very aesthetic rend mieux que very displeasing - mais ils ont clairement une influence :
Notation du contenu
Le type de contenu, plus ou moins mature et sensible a aussi été qualifié pour l’entrainement et peut être précisé via ces tags :
Rating Modifier | Rating Criterion |
safe | Contenu général |
sensitive | Contenu sensible |
nsfw | Contenu questionable (18+) |
explicit, nsfw | Contenu explicite (18+) |
Epoque
Ces Tags permettent d'orienter le résultat vers des styles d'animes modernes ou plus vintages, du plus récent au plus ancien.
newest | 2021 → 2024 |
recent | 2018 → 2020 |
mid | 2015 → 2017 |
early | 2011 → 2014 |
oldest | 2005 → 2010 |
Position des mains
Un soin particulier a été apporté aux mains et à leur positions dans les données d’entrainement d’Animagine XL 3.0. Le modèle génère donc bien les mains et connait plusieurs gestes de la main comme waving, v, double v, pointing at viewer, hands up, rabbit pose, shushing,…
Autres Tags
Des tas d’autres tags peuvent être utilisés pour décrire vos images. Une bonne source pour trouver des tags et les tester est le site d’image de Danbooru, bien connus des amateurs d’anime. Il dispose d’une liste de tags pour trouver des tags intéressants.
Voici quelques exemples d’images avec des prompts qui utilisent des tags trouvés sur Danbooru.
Dimensions des images
Animagine XL a été entrainé avec des images en 1024 pixels et il est donc recommandés d’utiliser les mêmes dimensions optimisées pour SDXL - Les auteurs conseillent particulièrement les formats suivants :
Dimensions | Aspect Ratio |
1024 x 1024 | 1:1 Carré |
1152 x 896 | 9:7 Horizontal |
896 x 1152 | 7:9 Vertical |
1216 x 832 | 19:13 Horizontal |
832 x 1216 | 13:19 Vertical |
1344 x 768 | 7:4 Horizontal |
768 x 1344 | 4:7 Vertical |
1536 x 640 | 12:5 Horizontal |
640 x 1536 | 5:12 Vertical |
Utiliser des LoRAs
Animagine XL se base sur SDXL, il est donc compatible avec tous les LoRAs conçus pour ce modèle - c’est à dire énormément !
Vous pouvez ainsi completer Animagine XL avec des personnages supplémentaires comme des supers héros, une princesse Disney,… choisis parmi les très nombreux LoRAs disponibles.
Mais les LoRA ne se limitent pas aux personnages et vous pouvez les utiliser avec Animagine XL pour utiliser des poses, des objets et plein d’autres choses.
Consultez également notre guide des LoRAs pour apprendre à les utiliser.
Comme nous l’avons vu, Animagine XL se distingue comme un modèle exceptionnel pour la génération d'anime grâce à son entraînement rigoureux et à sa compréhension approfondie des prompts. Le modèle open-source de Cagliostro Research Lab offre une alternative de choix pour les passionnés et créateurs du monde entier.
Il offre une expérience de génération d'anime complète, avec la possibilité d'explorer une variété de tags, des modificateurs de qualité aux notations du contenu, pour personnaliser les images selon les préférences de l'utilisateur. Que vous soyez un amateur d'anime expérimenté ou un créateur en herbe, Animagine XL se présente donc comme un outil puissant et accessible pour donner vie à votre imagination.
Ecrit par