Générer des animes avec Stable Diffusion & Animagine XL

Animagine XL - série 3

Annoncé le 10 Janvier 2024, Animagine XL 3.0 est, comme son nom l’indique, la troisième version du modèle créé par Linaqruf. C’est aussi le premier qu’il partage sous le nom de Cagliostro Research Lab - une équipe de développeurs et experts IA dont le but est de rendre la création d'anime accessible aux enthousiastes et aux créateurs du monde entier au travers des modèles IA open-source.

Avec plus de 500 heures d’entrainement et 1,25 millions d’images dans son dataset, Animagine XL 3.0 a été créé avec l’ambition de devenir le meilleur modèle open source de génération d’animes.

Un peu plus de 2 mois après la sortie de la version 3.0, un nouveau Animagine XL 3.1 est sorti le 18 Mars 2024. Cette nouvelle itération est la suite directe du modèle précèdent avec des références améliorées, de nouveaux tags esthétique (voir plus bas) et la correction de phénomène de surexposition constaté avec la V3.

Aux heures et images d’origine, Animagine XL 3.1 ajoutes plus de 800.000 nouvelles images soigneusement taguée et classée et 350 nouvelles heures d’entrainements.

Animagine XL dispose ainsi d’excellentes connaissances des animes et d'une très bonne compréhension des prompts. Il peut également générer des mains avec une excellente anatomie.

Installer Animagine XL

Animagine XL est un checkpoints, un modèle complet à installer comme modèle principal pour la génération d’image. Il est disponible sur plusieurs plateforme d’où il peut être téléchargé :

Télécharger Animagine XL 3.1 sur Civitai

Télécharger Animagine XL 3.1 sur HuggingFace

Avec Fooocus, A1111 ou ComfyUI, vous devez simplement ajouter directement le fichier animagine-xl-3.1.safetensors dans le repertoires /checkpoints de votre installation. Le modèle est également directement disponible dans le moteur de recherche de modèle de Stability Matrix et Diffus en et vous pouvez donc l’y installer en un clic.

Utiliser Animagine XL

Animagine XL a été entrainé de manière assez stricte, avec un soin particulier apporté aux description des images de sorte qu’il est optimisé pour fonctionner avec certains réglages et en utilisant une structure de prompt précise.

Paramètres recommandés

Les créateurs recommandent d'utiliser une CFG Scale d'environ 5-7, de ne pas dépasser les 30 steps et un d'utiliser l’échantillonneur Euler Ancestral. Cette configuration optimise la vitesse de configuration sans compromettre la qualité des résultats.

→ Sauf indication contraire, ce sont donc ces paramètres que j’ai utilisé pour toutes les images générés avec AnimagineXL qui illustrent cet article.

👌

Paramètres Animagine XL 3.0 :

guidance_scale: 7

sampler: Euler A

num_inference_steps : 27

Ecrire un prompt pour Animagine XL

La structure de prompt recommandée par Cagliostro Research Lab

Selon les créateurs du modèle, le prompt idéal commence par le tag 1girl ou 1boy selon que le personnage désiré soit féminin ou masculin, suivis du nom du personnage, de la série ou franchise dont il est issus. Viennent ensuite les tags et éléments descriptifs de l’image et enfin les tags complémentaires de style ou de qualité.

Voici quelques exemples d’images générées avec des prompts structurés de cette manière.

1boy, kevin kaslana, honkai, looking at viewer, double v, city, street, best quality, masterpiece

1girl, nami \(one piece\), one piece, solo, idol, stage light, singing, open mouth, crowd, smile, pointing at viewer, masterpiece, best quality

1girl, ange katrina, nijisanji, sitting, crossed legs, gentle smile, parted lips, desk, office chair, cinematic angle, from above, masterpiece, best quality

1boy, male focus, son goku, dragon ball, v, sitting at a restaurant table, candle, champagne, masterpiece, best quality

Vous pouvez bien sûr utiliser la même structure pour générer de nouveaux personnages - il suffit pour cela de donner plus de détails sur l’apparence du personnage plutôt que de le nommer.

1boy, young wizard apprentice, purple robe, blond hair, blue eyes, smile, fire magic in his hand, medieval city, peacefull street, market day, masterpiece, best quality

1girl, long hair, red hair, green eyes, golden hair ribbon, white shirt, purple and gold jacket, idol, idol clothes, white gloves, stage light, singing, open mouth, crowd, smile, pointing at viewer, masterpiece, best quality

📌

Prompt négatif ?

Avec SDXL les prompts négatifs sont devenu moins importants. Le seuls que je recommande vraiment est le “explicit, nsfw” comme expliqué plus bas.

Cependant, de nombreux exemples partagés par les auteurs reprennent aussi le prompt négatif suivants que vous pourriez vouloir utiliser :

“lowres, worst quality, low quality, signature, artist name, watermark”

Personnages connus

Comme le montre les exemples ci-dessus, Animagine XL 3.1 a été entrainé pour connaitre de très nombreux personnages d’anime. Près de 5000 personnage issues de l’univers animes sont ainsi déjà connu du modèle et peuvent être générés sans l’aide de LoRA.

Les créateurs d’Animagine XL estime en effet que la multiplication des LoRAs de personnages est devenue incontrôlable : Si il faut 1 LoRA différents par personnage, il faut 2800 LoRA pour 2800 personnages. Avec un taille moyenne de 50MBs de LoRA, ca nous fait donc 140 GBs pour stocker tous ces LoRAs. Qu’il faudra encore charger, lister, valider,… Bref, c’est ingérable !

Animagine XL entend résoudre cela en étant entrainé pour connaitre déjà un très grands nombres de personnages en détails - et ainsi pouvoir en générer des images à partir de leur seul nom. Si vous indiquez Monkey D. Luffy, vous obtiendrez une image de Luffy ; si vous indiquez Arima Kana, vous en obtiendrez une d’Arima Kana. C'est aussi simple que cela !

Avant d’utiliser un LoRA avec Animagine XL 3.1, essayez donc d’abord un prompt qui reprend le nom du personnage voulu et de sa série / franchise - il est fort possible qu’il soit déjà connu du modèle.

🔥

Linaqruf a partagé une liste de près de 4000 personnages les plus fréquents dans les données d’entrainement et qui peuvent donc être facilement générés.

→ Voir la liste

A noter que cette liste n’est pas exhaustive et ne reprend pas nécessairement tous les personnages connus du modèle… Disons qu’elle en reprend les principaux.

💡

Cette liste peut être directement utilisé comme wildcards avec Fooocus ou d’autres interfaces qui disposent de cette fonctionnalité.

Tags et descriptions

Même si Animagine XL 3.1 est optimisé pour un certains format de prompts utilisant surtout des tags, vous pouvez aussi l’utiliser comme un autre modèle, en écrivant des prompt plus descriptifs qui fonctionneront également.

anime artwork cinematic film still of a Beautiful Rococo Princess sitting on the Japanese metro, elaborate gown, massive curly red rococo hair, head and shoulders portrait, pretty eyes. Crowded metro with onlookers. best quality, masterpiece, aesthetic

The Mandalorian in a deep forest wearing a blue and silver rugged armor, highly detailed star wars movie still with shallow depth of field, high budget, gorgeous best quality, masterpiece, aesthetic

A litography classic tarot card of Deadpool, vintage tarot card, very aesthetic

a smiling girl wearing a lab coat and holding a green medical drug, highly detailed, very aesthetic, best quality, masterpiece

La méthode recommandé reste cependant d’utiliser des tags et mots clefs qui sont plus précis et vous donneront plus de contrôle sur l’image. Il faut cependant prendre l’habitude d’écrire ses prompts de cette manière et, surtout, connaitre les tags les plus efficaces.

L’équipe de Cagliostro a partagé certains tags qui ont été utilisés pour l’entrainement du modèle et son donc très bien pris en compte :

Modificateurs de qualité

Ces tags sont basé sur un score de qualité des images du dataset et sont, du meilleur au moins bon :

Tags	Score de qualité
masterpiece	>150
best quality	100-150
high quality	75-100
medium quality	25-75
normal quality	0-25
low quality	-5-0
worst quality	<-5

Les tags de mauvaise qualité comme worst quality et low quality peuvent sembler inutiles - mais vous pouvez également les utilisez en prompt négatif pour améliorer la qualité de vos images.

⚠️

Dans les données d’entrainement, un (très) grand nombre d’images de qualité masterpiece et best quality sont également des images au contenu explicite (nsfw) -Pour éviter ces contenus, il est recommandé d’inclure des tags de notation en lorsque vous les utiliser :

Ajouter “safe” au prompt en plus de “masterpiece, best quality”

Ajouter “explicit, nsfw” au prompt négatif

Modificateurs esthétiques

En plus de tags de qualités, AnimagineXL 3.1 reconnait 4 tags que vous pouvez utiliser dans vos prompts (positifs ou négatifs) pour en modifier l’esthétique. Je ne suis pas sûr de saisir le sens de ces tags et la manière dont very aesthetic rend mieux que very displeasing - mais ils ont clairement une influence :

Notation du contenu

Le type de contenu, plus ou moins mature et sensible a aussi été qualifié pour l’entrainement et peut être précisé via ces tags :

Rating Modifier	Rating Criterion
safe	Contenu général
sensitive	Contenu sensible
nsfw	Contenu questionable (18+)
explicit, nsfw	Contenu explicite (18+)

Epoque

Ces Tags permettent d'orienter le résultat vers des styles d'animes modernes ou plus vintages, du plus récent au plus ancien.

newest	2021 → 2024
recent	2018 → 2020
mid	2015 → 2017
early	2011 → 2014
oldest	2005 → 2010

Position des mains

Un soin particulier a été apporté aux mains et à leur positions dans les données d’entrainement d’Animagine XL 3.0. Le modèle génère donc bien les mains et connait plusieurs gestes de la main comme waving, v, double v, pointing at viewer, hands up, rabbit pose, shushing,…

Autres Tags

Des tas d’autres tags peuvent être utilisés pour décrire vos images. Une bonne source pour trouver des tags et les tester est le site d’image de Danbooru, bien connus des amateurs d’anime. Il dispose d’une liste de tags pour trouver des tags intéressants.

Voici quelques exemples d’images avec des prompts qui utilisent des tags trouvés sur Danbooru.

1girl, nico robin, one piece, portrait, gentle smile, parted lips, masterpiece, best quality — 1girl, nico robin, one piece, portrait, **gentle smile, parted lips**, masterpiece, best quality

1girl, hoshimachi suisei, hololive, one eye closed , cloud focus, cloud sky, masterpiece, best quality — 1girl, hoshimachi suisei, hololive, **one eye closed , cloud focus, cloud sky**, masterpiece, best quality

1girl, elf, wizard, long hair, white hair, brown eyes, headpiece, green dress, long dress, sleeveless dress, sitting, lake, maserpiece, best quality — 1girl, elf, wizard, **long hair, white hair, brown eyes, headpiece, green dress, long dress, sleeveless dress**, sitting, lake, maserpiece, best quality

1girl, anya \(spy x family\), spy x family, portrait, sobbing, open mouth, masterpiece, best quality — 1girl, anya \(spy x family\), spy x family, portrait, **sobbing, open mouth**, masterpiece, best quality

Dimensions des images

Animagine XL a été entrainé avec des images en 1024 pixels et il est donc recommandés d’utiliser les mêmes dimensions optimisées pour SDXL - Les auteurs conseillent particulièrement les formats suivants :

Dimensions	Aspect Ratio
`1024 x 1024`	1:1 Carré
`1152 x 896`	9:7 Horizontal
`896 x 1152`	7:9 Vertical
`1216 x 832`	19:13 Horizontal
`832 x 1216`	13:19 Vertical
`1344 x 768`	7:4 Horizontal
`768 x 1344`	4:7 Vertical
`1536 x 640`	12:5 Horizontal
`640 x 1536`	5:12 Vertical

Utiliser des LoRAs

Animagine XL se base sur SDXL, il est donc compatible avec tous les LoRAs conçus pour ce modèle - c’est à dire énormément !

Vous pouvez ainsi completer Animagine XL avec des personnages supplémentaires comme des supers héros, une princesse Disney,… choisis parmi les très nombreux LoRAs disponibles.

Mais les LoRA ne se limitent pas aux personnages et vous pouvez les utiliser avec Animagine XL pour utiliser des poses, des objets et plein d’autres choses.

👉

Consultez également notre guide des LoRAs pour apprendre à les utiliser.

Comme nous l’avons vu, Animagine XL se distingue comme un modèle exceptionnel pour la génération d'anime grâce à son entraînement rigoureux et à sa compréhension approfondie des prompts. Le modèle open-source de Cagliostro Research Lab offre une alternative de choix pour les passionnés et créateurs du monde entier.

Il offre une expérience de génération d'anime complète, avec la possibilité d'explorer une variété de tags, des modificateurs de qualité aux notations du contenu, pour personnaliser les images selon les préférences de l'utilisateur. Que vous soyez un amateur d'anime expérimenté ou un créateur en herbe, Animagine XL se présente donc comme un outil puissant et accessible pour donner vie à votre imagination.

Générer des animes avec Animagine XL