Préparer le dataset pour entrainer un LoRA Flux

L'art de préparer votre dataset

Les LoRAs offrent une approche astucieuse et efficace pour personnaliser le modèle Flux[dev] sans avoir à le ré-entraîner entièrement.

Cette technique permet en effet d'adapter le modèle à des concepts, des personnes ou des styles spécifiques, tout en gardant une empreinte légère en termes de calcul et de stockage.

L’entrainement d’un LoRA est en outre relativement facile et peut même se faire en ligne comme expliqué dans notre Tutoriel sur l’entrainement d’un LoRA Flux.

Mais la clé d'un LoRA efficace réside dans la qualité de son dataset d'entraînement. En effet, Les images que vous choisissez et préparez vont directement influencer les performances et la polyvalence de votre LoRA.

Dans cet article, nous allons voir ensemble comment constituer un dataset optimal. Nous aborderons des aspects essentiels tels que la quantité d'images nécessaire, l'importance de la diversité et de la qualité ainsi que la création de captions, ces descriptions d’image qui permettent à l’IA de mieux comprendre ce que vous souhaitez lui apprendre.

La sélection des images

La première étape pour créer votre dataset est de sélectionner les images qui vont servir de données d’entrainement.

Les règles d'or pour sélectionner vos images

La quantité idéale : Ni trop, ni trop peu

La première règle à respecter pour sélectionner vos images d’entrainement est d’en avoir la quantité idéale (suffisamment mais pas trop).

Il faut en effet avoir assez d’image pour que le modèle puisse apprendre votre concept dans sa globalité et sa diversité. Un grand nombre d’images permettra ainsi au modèle d’avoir une meilleure précision.

Mais en avoir de trop risque de surcharger le LoRA d’information (et d’augmenter le temps d’entrainement) - Et si elles ne sont pas toutes de bonnes qualité, le résultat sera encore moins bon.

Visez entre 10 et 20 images pour un LoRA de personnes ou de personnages - et éventuellement un peu plus pour des poses ou des styles. Certains utilisateurs ont pu créer un LoRA de personne avec seulement 5 images mais je pense qu’il vaut mieux en utiliser plus.

La diversité : La clé d'un LoRA polyvalent

La seconde règle qui vient compléter la première, c’est de miser sur la diversité des contextes.

La variété est en effet la clé pour un modèle polyvalent.

Voici trois conseils pour diversifier votre set d'images :

Changez de décor : Montrez votre sujet dans différents environnements. Un portrait en intérieur, en extérieur, en ville, dans la nature... Votre LoRA apprendra à s'adapter à tous les contextes.

Jouez avec les poses : Si vous travaillez sur des personnages ou des objets, variez les angles et les positions. De face, de profil, en mouvement... Cela aidera votre LoRA à comprendre la structure en 3D de ce qu'il doit représenter.

Expérimentez avec la lumière : Un même sujet peut paraître très différent selon l'éclairage. Incluez des images prises en plein soleil, à l'ombre, en lumière artificielle... Votre LoRA apprendra ainsi à gérer les ombres, les reflets, et les ambiances lumineuses.

Pour un LoRA d’une personne, essayez d’avoir une bonne moitié de portraits pour qu’il puisse bien appréhender les traits et détails du visages. Compléter avec 1/4 d’image en plan large où le le visage est de face et 1/4 d’image variées avec des profils et d’autres angles de vue.

Pour un LoRA de style ou de genre, la diversité viendra plutôt ses sujets : conservez un style homogène (celui que vous voulez obtenir avec votre LoRA) dans vos images en veillant à ce qu’elle représente des personnages, objets et scène différentes et variées.

La précision : Évitez la confusion

Notre troisième règle est d’utiliser des images qui illustrent précisément ce que vous souhaitez obtenir. N’utilisez pas des images qui peuvent créer de la confusion en mélangeant votre concept avec un autre.

Pour un personnage, essayer de n’avoir que des photos dont il est le sujet principal et où son visage est le seul visage visible.

Pour des objets ou créatures, assurez vous que votre objet est bien le sujet principal de l’image et est clairement reconnaissable.

La qualité : l'excellence plutôt que la quantité

Le dernier critère est le plus important dans le choix de vos images : la qualité.

Les règles précédentes ne doivent pas vous faire oublier que la qualité de vos images sources est primordiale au succès de votre LoRA.

Vos images ne doivent pas forcément être en haute définition (des images en 512x512 donnent plus souvent d’aussi bons résultat que des images plus grandes) mais elles doivent être de qualité.

10 images de très hautes qualité donneront toujours de meilleurs résultats que 30 images médiocres.

A moins que cela ne fasse partie du style que vous souhaitez obtenir avec votre LoRA, évter absolument les images floues, endommagées ou mal finies.

Dites vous qu’une seule image de basse qualité peut influencer négativement les résultats de l’entrainement. D’une manière générale, il vaut mieux une image de moins qu’une image de mauvaise qualité de plus.

En suivant ces 4 règles (quantité, diversité, pas de confusion et qualité) vous donnerez à votre LoRA les moyens de générer des images variées et réalistes.

Exemple

Pour mon LoRA Groquik, j’ai rassemblé 20 images du personnages trouvées sur Internet. Certaines des images ont été recardées pour garder le focus sur Groquik et éviter les longs textes publicitaires.

Le qualité des images n’est pas exceptionelle mais elle reste correct - j’ai évité les jpg flou et les gif hyper pixelisés.

⚙

Noms et formats des fichiers

Même si ce n’est pas une règle absolues et si certains outils reconnaissent d’autres formats, il est recommandés d’utiliser des images au format PNG ou JPGEG avec un nom unique suivis d’un numéro.

Cette convention de nommage est également pratique pour associer les descriptions aux images comme expliqué ci-dessous.

La descriptions des images

Cette étape n’est pas forcément obligatoire mais elle peut grandement améliorer la qualité de votre LoRA.

Pourquoi écrire des descriptions ?

Également appelées captions, ces descriptions sont un peu comme des prompts inversés : à l’entrainement, elles vont servir à décrire l’image au modèle et l’aider à identifier ce qui, dans l’image, correspond à votre concept (et par conséquent ce qui n’en fait pas partie).

Pour chacune de vos images, rédigez une légende (en anglais) qui décrit ce qui est présent à l’image et ne fait pas partie de ce que doit apprendre le LoRA.

Par exemple, pour un LoRA d’une personne qui porte toujours la barbe et des lunettes, celles-ci doivent être absentes des descriptions. Par contre, s'il porte parfois des lunettes et parfois non, il vaut mieux les indiquer en description. Le LoRA sera alors capable de générer des portraits avec ou sans lunette selon qu'elles soient présentes ou non dans le prompt.

Les captions vous permettent aussi de choisir un ou plusieurs trigger words. Ce sont le ou les mots clefs qui pourront être utilisés dans le prompt pour indiquer le concept ou le personnage du LoRA.

Comment écrire les descriptions ?

Décrire en anglais une vingtaine d’images peut vite s’avérer fastidieux - surtout si on essaye d’écrire des description longue et complètes qui reprennent tous les détails de l’image.

🇫🇷

Comme souvent, l’anglais est la langue recommandée pour écrire vos captions. Si vous ne maîtrisez pas pa la langue de Shakespeare, une bonne solution est de rédiger en français puis d’utiliser un outil de traduction automatique comme Deepl.

Une bonne solution pour se simplifier le travail est d’utiliser des outils IA qui vont analyser et décrire les images (C’est ce qu’on appelle parfois l’Image to Prompt). Plusieurs outils comme sont disponibles en ligne mais je vous recommande particulièrement JoyCaption qui est disponible gratuitement sur HuggingFace.

Pensez cependant à vérifier les descriptions et à la corriger. D’abord parce qu'il arrive que l’IA hallucine et décrivent des choses qui ne sont pas vraiment dans l’image. Ensuite parce que, comme nous l’expliquons plus haut, il faut également retirer de vos descriptions les éléments qui font partie de ce que vous souhaitez apprendre à votre LoRA.

En plus de la description de l’image, il est également utile de commencer vos descriptions par un mot clef qui va servir à identifier le personnage ou le concept de votre LoRA et fonctionnera comme trigger word.

Un format efficace pour vos description est de faire suivre ce mot clef par une description détaillée de l’image comme celle obtenue avec JoyCaption.

Faut-il vraiment utiliser des descriptions ?

L’utilisation de description n’est pas absolument nécessaire et il reste possible d’entrainer un LoRA qui fonctionne sans utiliser la moindre description. Certains créateur obtiennent également de très bons résultats en utilisant qu’un mot clef trigger word en description de toutes les images.

Des test réalisés et partagés par mnemic sur Civitai indiquent cependant que la combinaison mot clef + description longue permettent d’obtenir des LoRAS qui combinent efficacité et flexibilité. Ils demanderont parfois des prompts plus longs pour être bien activés, mais il se révèlent souvent capable de plus de variations (style, habit des personnes,…).

Exemple

Pour le LoRA Groquik, j’ai utilisé JoyCaption pour obtenir une description longue des mes images.

J’ai ensuite retravaillé ces descriptions pour supprimer les elements de descriptions du personnages (gros ventre, couleur, antenne/oreille,…) et ajouter le mot clef “A groquik character”. Le résultat final ressemble alors à la description suivante :

A Groquick character. The image is a digital cartoon drawing of a Groquick. The character has a smooth, continuous appearance. It stands upright on two large, round feet. The character is wearing a white, flat-topped hat with a red band around the middle. It is smiling. One hand is raised in a waving gesture, with the fingers slightly spread apart. The background of the image is plain white, which makes the character stand out vividly. The drawing style is clean and bold, typical of classic cartoon animation, with solid, bright colors and simple, exaggerated lines that emphasize the character's round, smooth shape. There are no additional objects or elements in the background, ensuring the character remains the focal point of the image.

⚙

Associer image et description

Avec la plupart des outils permettant d’entrainer des LoRA, l’ajout de description se fait en créant, pour chaque image, un fichier .txt du même nom qui contient sa description.

Lancez-vous dans l'aventure LoRA !

En fin de compte, la création d'un dataset de qualité pour votre LoRA reste un exercice d'équilibre qui demande créativité et savoir faire. Vous avez néanmoins maintenant les clés pour sélectionner et préparer vos images efficacement :

Visez la quantité idéale : entre 15 et 20 images pour un bon équilibre.

Misez sur la diversité pour obtenir un LoRA polyvalent.

Privilégiez la qualité des images plutôt que la quantité.

Assurez-vous que vos images illustrent précisément votre concept.

Utilisez des descriptions (captions) pertinentes pour affiner l'apprentissage.

Comme pour la rédaction de prompt et la génération d’image, la pratique est essentielle pour maîtriser l’art de l’entrainement de LoRA. N'hésitez donc pas à expérimenter avec différentes approches et à ajuster votre méthode en fonction des résultats obtenus. Chaque LoRA que vous créerez vous permettra d'affiner votre technique.

Maintenant que vous avez toutes les informations nécessaires, il ne vous reste plus qu'à vous lancer dans la préparation de votre dataset. Que vous souhaitiez créer un LoRA de personnage, de style artistique ou de concept, ces principes vous guideront vers la création d'un modèle performant et flexible.

N'hésitez pas à partager vos expériences et vos créations. Vos retours et vos réussites pourront inspirer d'autres créateurs et contribuer à l'évolution de cette technologie passionnante.

Choisir les images d'entraînement d’un LoRA

L'art de préparer votre dataset

La sélection des images