Comment trouver le prompt d’une image ?

Prompt et Metadata

les metadata (ou metadonnées) d’une image sont un ensemble d'informations qui décrivent ou fournissent des données sur un fichier d'image et sont contenue directement dedans. Ces données peuvent inclure le titre de l'image, sa description, les mots-clés associés, l'auteur et les droits d'auteur.

Dans le cas d’images créées avec Stable Diffusion, ces metadatas contiennent souvent le prompt de l’image et les paramètres de génération (modèle, seed, sampler,…). Plusieurs interface comme Automatic1111 et ComfyUI ajoutent en effet ces informations dans les images qu’elles génèrent.

Pour les images créées avec d’autres IA comme Midjourney ou DALL-E, il n’y a pas de metadata et il faudra alors deviner le prompt à l’aide d’une autre technique.

Extraire les metadata d’une image

PNG Info (Automatic1111)

Automatic1111 (ou Forge) dispose d’un outil intégré pour extraire le prompt et les paramètres d’une image générée avec Stable Diffusion.

Pour l’utiliser, il suffit d’ouvrir l’onglet PNG Info et de télécharger l’image dans la zone prévue pour. Le prompt et les paramètres de l’image apparaissent alors dans le cadre de droite. Les différents boutons en dessous vous permettent ensuite d’utiliser directement ces paramètres pour de nouvelles générations.

Lorsque l’image ne contient pas de paramètres de génération, le PNG Info affiche None. Il faudra alors utiliser une autre technique pour deviner le prompt de l’image comme expliqué plus loin.

Une autre possibilité consiste simplement à glisser-déposer l’image dans le champ prompt de l’onglet txt2img - Si elle contient des paramètres en metadonnées, ceux-ci seront affiché dans le prompt. La petite flèche ↙ sous le bouton de génération permet alors d’appliquer automatiquement les paramètres.

PNG Info (Web)

Linaqruf, créateur du modèle AnimagineXL, propose également cette version Web de PNG Info pour récupérer les metadonnée des images générées avec A1111, ComfyUI et d’autres interfaces.

https://huggingface.co/spaces/Linaqruf/pnginfo

Son fonctionnement est très simple : téléchargez l’image dans le champ prévu et les metadonnées s’afficheront à droite (si elles existent)

Data Viewer

Alternativement, n’importe quel outil capable d’extraire les metadonnées d’une image peut vous permettre de récupérer les paramètres d’une image.

Vous pouvez par exemple utiliser Jimpl, un outil gratuit et très simple d’utilisation. Les paramètres apparaissent en bas de page, sous d’autres informations comme le format et les dimensions de l’image.

Mais ces technique ne fonctionne que pour des images générée avec Stable Diffusion et des interfaces qui reprennent les paramètres de la génération en metadata.

Cela ne fonctionnera donc pas pour des images générée avec d’autres IA comme Midjourney ou DALL·E - ni même celles crées avec d’autres interface comme Fooocus (qui n’ajoute pas de metadata par défaut). Et, évidemment, vous ne pouvez pas non plus espérer obtenir des metadonnées de ce type pour des photos ou illustrations créées sans IA.

Deviner le prompt

Quand le prompt n’est pas directement disponible avec l’image, il reste encore possible d’obtenir un prompt capable de reproduire une image similaire.

C’est le principe de l’Image to Prompt qui consiste à convertir une image en une description textuelle.

L’IA est alors utilisée pour examiner une photo, déterminer ce qu'elle contient, puis écrire une descriptions complète.

Ce genre d’outil est utile pour donner un sens aux images avec des mots, que ce soit pour mieux les décrire à d'autres personnes, organiser un tas de photos ou générer des images similaires à la photo d’origine avec Stable Diffusion ou d’autres IA génératives.

Clip Interrogator

Une première solution pour l’Image to Prompt est d’utiliser un CLIP Interrogator - un modèle d’IA capable de décrire n’importe quelles images, générées par IA ou non.

CLIP est l’abréviation de Contrastive Language-Image Pre-training - est désigne réseau neuronal qui associe des concepts visuels au language naturel. Un modèle CLIP est entraîné avec un grand nombre d’images et leur légendes pour créer des associations entre les mots et leurs représentations.

Stable Diffusion utilise d’ailleurs un modèle CLIP pendant la génération d’image pour évaluer si l’image en cours de génération correspond à la description donnée en prompt. Et le même modèle peut donc être utilisé pour décrire une image en vue de la recréer avec l’IA.

Interrogate CLIP dans Automatic1111

L’interface web Automatic1111 dispose d’un outil de type CLIP Interrogator directement intégré dans l’onglet img2img.

En cliquant sur le bouton 📎 (Interrogate CLIP) après avoir télécharger l’image dans l’espace img2img, vous obtiendrez le prompt proposé directement dans le champs prompts de votre interface.

Sous le capot, Cet outil utilise le modèle BLIP. Le bouton juste à droite (📦), permet d’utiliser DeepBooru, un autre modèle spécialisé pour les images de type manga et anime qui va retourner des tags pour décrire l’image (correspondant aux tags utilisés sur Danbooru).

Extension Clip interrogator (Automatic1111)

Si la fonction Interrogate CLIP ne permet pas d’utiliser un autre modèle que celui par défaut, il existe une extension qui permet notamment de choisir parmi diffèrent modèle : CLIP Interrogator ext .

Suivez notre tutoriel Automatic1111 pour Installer l’extension depuis l’URL https://github.com/pharmapsychotic/clip-interrogator-ext. Une fois l’extension installée, un nouvel onglet Interrogator s’ajoute à l’interface.

Télécharger votre image puis sélectionnez un modèle avant de cliquer sur Generate pour obtenir la description.

❓

Quel modèle CLIP Utiliser ?

Je recommande de choisir le modèle CLIP en fonction du modèle Stable Diffusion que vous souhaitez utiliser avec le prompt :

Pour SD 1.5, utilisez ViT-L-14-336/openai

Pour SDXL, utilisez ViT-g-14/laion2b_s34b_b88k

CLIP interrogator en ligne

Il est également possible d’utiliser un CLIP interrogator en ligne plutôt que de passer par Automatic1111.

Hugging Face et Replicate proposent tous les deux une interface en ligne qui permet de télécharger une image et de choisir le modèle CLIP à utiliser pour en générer la description.

https://replicate.com/pharmapsychotic/clip-interrogator

Outils d’Image-to-Prompt

Plusieurs outils et service en ligne proposent une interface simple et rapide pour eeefectuer un Image-to-Prompt et obtenir une description d’image à même d’être utilisé pour en créer une nouvelle similaire.

Dzine - Image to Prompt

https://www.dzine.ai/tools/image-to-prompt/?via=thomas

La plateforme de Dzine propose un grande nombre d’outils IA pour la création graphique. Parmi ceux-ci, la fonctionalité Auto Prompt permet notamment de convertir une image en prompt pour générer de nouvelles images directement dans Dzine.

Télécharger l’image dans Dzine

Cliquer sur le bouton Auto Prompt pour remplir le prompt avec la description de l’image envoyée.

→ Essayer l’image-to-prompt sur Dzine

Fonctions Describe

Une alternative aux CLIP Interrogators et aux outils tout-fait est d’utiliser la fonction Describe que propose plusieurs outils de génération d’images. Si elles utilisent également un modèle CLIP, ces fonctionnalités complètent en général leur analyse par un travail d’optimisation de la description pour en faire un prompt.

Ces solutions visent à combler les failles des modèles CLIP qui ont tendance à créer des répétitions de mot ou ajouter des noms d’artistes qui semblent très aléatoire. Elles permettent aussi d’obtenir des prompts plus variés et créatifs.

Fooocus Describe

Voici comment utiliser la fonctionnalité Describe dans Fooocus :

Cochez la case Input Image pour ouvrir l’interface correspondante.

Ouvrez l’onglet Describe.

Ajouter votre image dans la zone à gauche.

Cliquez sur le bouton Describe this Image into Promp

Fooocus va directement mettre la description en prompt, prête pour votre prochaine génération. Vous pouvez également cliquer une nouvelle fois sur le bouton pour générer un autre prompt - Fooocus va en effet générer des description différentes à chaque utilisation pour vous aider à trouver la bonne pour votre image.

Midjourney Describe

Si vous êtes également utilisateur de Midjourney en plus de Stable Diffusion, sachez qu’il dispose également d’une fonctionnalité Describe que vous pouvez utiliser pour obtenir le prompt d’une image.

C’est évidemment une solution particulièrement adaptée pour ceux qui souhaite utiliser Midjourney pour générer leur image.

Sur le Discord de Midjourney, entrez simplement la commande /describe. Téléchargez ensuite une image et appuyez sur Entrée pour confirmer.

Midjourney vous présentera ensuite quatre suggestions différentes. Ces propositions peuvent ensuite être utilisées comme base pour générer des images similaire à l’image de départ. Cliquez simplement sur le numéro associé à l’une des description pour lancer une nouvelle génération avec.

🔗

Consultez également cet article détaillant le describe de Midjourney.

Image to Prompt avec ChatGPT

Enfin, si vous disposez de l’abonnement ChatGPT Plus, il est également possible de faire appel au chatbot d’OpenAI pour analyser votre image et obtenir un prompt en suivant cette méthode :

Téléchargez l’image et demandez à ChatGPT de la décrire.

Demandez ensuite à ChatGPT d’écrire le prompt pour générer l’image avec Stable Diffusion.

(remarque : cette technique fonctionne mieux en anglais)

Améliorer les résultats

Lorsque vous cherchez à reproduire une image à l’aide de Stable Diffusion en devinant son prompt, les outils présentés ci-dessus ne doivent pas remplacer vos connaissance et votre imagination.

Aucun n’est parfait et il est fort possible que les prompts proposés soient incomplets ou même erronés. N’hésitez donc pas à modifier et corriger le prompts pour le faire mieux correspondre à ce que vous voyez sur l’image.

Essayez également de choisir un modèle adapté à l’image que vous souhaitez obtenir : Il existe des modèles différents pour diffèrent types d’image (anime, photo, illustration,…), utilisez-en donc un qui convient.

Souvenez vous également que vous pouvez utiliser une image comme prompt. Notre article sur l’image prompt de Fooocus montre comment utiliser cette technique pour reprendre le style ou les couleurs d’une image. N’hésitez par exemple pas à combiner l’image prompt avec un prompt obtenu à l’aide de l’IA pour encore mieux reproduire le style ou l’ambiance de votre image source.

Trouver le prompt d'une image