HiDream-I1

HiDream-I1

Created Time
modele
modele
HiDream-I1 est un modèle de génération d’images open-source de nouvelle génération.
Il permet de produire des visuels photoréalistes ou artistiques à partir de simples descriptions textuelles, en français ou en anglais.
Il se distingue par sa capacité à comprendre les prompts complexes, à respecter fidèlement les consignes, et à générer des images d'une grande qualité.
notion image

Qu’est-ce que HiDream-I1 ?

HiDream-I1 est un modèle de génération d’images open-source de nouvelle génération, conçu pour offrir une qualité de rendu visuel digne des meilleurs modèles propriétaires tout en conservant une totale liberté d'utilisation. Ce modèle permet de produire facilement des visuels photoréalistes, illustratifs ou stylisés à partir de simples descriptions textuelles, qu'elles soient rédigées en français ou en anglais. Il est conçu pour comprendre et interpréter avec une grande précision même les prompts les plus nuancés.
Outre sa nature open-source, ce qui distingue HiDream-I1, c'est la sophistication de son architecture : il repose sur un transformeur diffusionnel de type DiT (Diffusion Transformer), enrichi par un mécanisme de Mixture-of-Experts (MoE), une technique qui active dynamiquement des sous-réseaux spécialisés selon le contenu du prompt. Il intègre également plusieurs encodeurs de texte en parallèle — notamment T5-XXL, CLIP ViT-L et LLaMA 3.1 — ce qui lui permet d’extraire un sens fin et riche des descriptions fournies.
Cette combinaison technique lui permet de respecter fidèlement les consignes, de comprendre la structure sémantique des phrases complexes, et de restituer des détails visuels cohérents, que ce soit pour des paysages oniriques, des portraits réalistes ou des compositions graphiques plus abstraites. HiDream-I1 se positionne ainsi comme un véritable outil de création libre et puissant, accessible aussi bien aux créateurs visuels qu'aux développeurs souhaitant l'intégrer à leurs applications.

Qui est derrière HiDream-I1 ?

HiDream-I1 a été développé par HiDream.ai, une équipe spécialisée dans la création de modèles de génération visuelle à haute fidélité. La structure du projet est résolument open-source, avec une publication complète du code, des poids et des instructions d’utilisation sur GitHub et Hugging Face.
Le modèle a été initialement révélé via la plateforme Vivago.ai, fruit de la même équipe, qui sert de vitrine officielle pour les démonstrations en ligne.

Comment utiliser HiDream-I1 ?

HiDream-I1 en ligne

HiDream peut être testé et utilisé en ligne sur différente plateformes.
Dès sa sortie, il a été rendu accessible sur Vivago.ai : la plateforme officielle d’HiDream AI dotée d’une interface utilisateur simple.
Une démonstration d’implémentation avec Gradio est égaement disponible sur Hugging Face Space
notion image

HiDream-I1 en local

HiDream-I1 peut également être télécharger pour une utilisation en local.
Le Github officiel donne les indications de base pour une execution via un script Python.
HiDream bénéficie également d’une intégration native dans ComfyUI qui permet de l’utiliser facilement.
notion image
Configuration recommandée : GPU ≥ 16 Go VRAM (24+ pour la version Full). Versions quantifiées 4-bit disponibles. Il est également recommandé d’utiliser Flash Attention 2 avec CUDA en version 12.4 ou supérieure.

Images générées avec HiDream-I1

Voici quelques exemples d’images générées avec Image-01 et partagées par différents sur 𝕏, Reddit ou d’autres réseaux sociaux (cliquez sur l’image pour découvrir son créateur).
https://x.com/MathisYanis/status/1910280704711065853
https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Fhidream-my-jaw-dropped-along-with-this-model-v0-j8el97fv24ue1.png%3Fwidth%3D506%26format%3Dpng%26auto%3Dwebp%26s%3Db6b18f96f23da7c058c2bb31a98693dada3c36be
https://x.com/LudovicCreator/status/1910163276232606046/photo/2
https://x.com/MathisYanis/status/1910280704711065853
 
https://x.com/MathisYanis/status/1910280704711065853
https://x.com/MisstyFlux/status/1910044123731579112/photo/2
https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Fhidream-my-jaw-dropped-along-with-this-model-v0-6hgygmkxv1ue1.jpeg%3Fwidth%3D638%26format%3Dpjpg%26auto%3Dwebp%26s%3D74f54da9b251d13acd46fee30a5a0e14878ccc96
https://x.com/MathisYanis/status/1910280704711065853
https://x.com/vivago_ai/status/1910552783897715196/photo/1
https://x.com/mrgris/status/1910304766091030805/photo/1
 
https://x.com/LudovicCreator/status/1910163272793305572/photo/1
https://x.com/LudovicCreator/status/1910163276232606046/photo/4
https://x.com/StableTom/status/1910274713361711260/photo/1
https://x.com/LudovicCreator/status/1910163276232606046/photo/1
https://x.com/PhotoGarrido/status/1909632517017129207

HiDream-I1 en détails

Versions disponibles

HiDream-I1 est proposé en trois déclinaisons distinctes, afin de répondre à des besoins variés allant de la création artistique de haute qualité à des usages en temps réel ou sur matériel plus limité.
  • HiDream-I1-Full : Il s'agit de la version la plus complète et la plus performante du modèle. Elle utilise 50 pas d'inférence pour produire des images d’une qualité maximale, avec un respect rigoureux des détails du prompt et une richesse visuelle impressionnante. Cette version est idéale pour les travaux de haute précision, les rendus photoréalistes ou les productions professionnelles, à condition de disposer d’un GPU avec au moins 24 Go de VRAM.
  • HiDream-I1-Dev : Version intermédiaire, distillée pour offrir un excellent compromis entre qualité et vitesse. Avec ses 28 pas d’inférence, elle conserve une excellente fidélité aux prompts et une esthétique soignée tout en réduisant significativement le temps de génération. C’est cette version qui est utilisée pour les démonstrations en ligne (Vivago, Hugging Face) et recommandée pour la plupart des cas d’usage quotidiens.
  • HiDream-I1-Fast : Cette version, allégée à 16 pas d’inférence, est optimisée pour la réactivité. Elle permet de générer des visuels rapidement, avec un coût computationnel minimal. Bien qu’elle perde légèrement en finesse et en précision par rapport aux deux autres versions, elle reste très efficace pour les applications en temps réel, les tests rapides ou les environnements aux ressources limitées.

Disponibilité et Licences

HiDream-I1 est un modèle open-source distribué sous licence MIT, ce qui signifie qu’il peut être librement utilisé, modifié et intégré dans des projets personnels ou commerciaux. C’est un choix stratégique qui le rend particulièrement attractif pour les développeurs indépendants et les startups souhaitant bâtir des services ou des applications sur une base fiable et puissante.
Il faut cependant noter que l’un des encodeurs de texte utilisés, LLaMA 3.1 (8B Instruct), est soumis à la Llama Community License. Cette licence impose certaines conditions d'utilisation, notamment pour des usages commerciaux, et nécessite une acceptation explicite lors du téléchargement via Hugging Face.
Tous les poids des modèles (Full, Dev, Fast) sont hébergés publiquement sur Hugging Face. Le code source complet, incluant les pipelines d’inférence et les scripts de démonstration, est quant à lui disponible sur GitHub.
  • Modèle open-source sous licence MIT
  • L’encodeur LLaMA 3.1 est soumis à la Llama Community License
  • Téléchargement et usage gratuits, y compris à des fins commerciales

Points forts

HiDream-I1 se distingue par une combinaison remarquable de précision, de créativité et de liberté d’usage, qui le positionne comme un modèle de premier plan dans l’écosystème open-source. Voici les points qui en font un outil particulièrement puissant :
  • Interprétation précise des prompts : HiDream-I1 atteint des scores records sur les benchmarks comme GenEval et DPG, qui mesurent la capacité d’un modèle à suivre fidèlement les consignes données dans un prompt. Il excelle notamment dans la gestion du nombre d’objets, des couleurs, des attributs spécifiques et de leur disposition dans l’image.
  • Grande variété de styles : Que vous souhaitiez générer un portrait photoréaliste, une scène de fantasy, une peinture traditionnelle asiatique ou un dessin animé coloré, HiDream-I1 s’adapte à votre intention. Cette diversité stylistique est rendue possible grâce à l’entraînement sur un large corpus multi-genres et à la richesse de ses encodeurs sémantiques.
  • Qualité visuelle élevée : Avec un score de 33,8 sur le benchmark HPS v2.1, HiDream-I1 rivalise avec les meilleurs modèles propriétaires. Il génère des images nettes, bien structurées, aux textures détaillées et aux compositions souvent très équilibrées. Les résultats visuels sont cohérents, expressifs et particulièrement adaptés à des usages créatifs avancés.
  • Usage libre et flexible : Grâce à sa licence MIT (hors LLaMA 3.1), HiDream-I1 peut être utilisé aussi bien localement que via des plateformes en ligne, sans restrictions majeures. Que vous soyez artiste, développeur ou chercheur, vous pouvez l’intégrer dans vos workflows existants, tester de nouveaux cas d’usage ou l’adapter à vos projets commerciaux sans barrières juridiques.

Architecture & Détails techniques

Composants techniques

HiDream-I1 repose sur une architecture particulièrement ambitieuse et moderne. Il mobilise 17 milliards de paramètres, ce qui le place parmi les plus grands modèles de génération d’images disponibles en open-source. Sa structure est fondée sur un Diffusion Transformer (DiT), une approche qui remplace le classique U-Net par des blocs transformeurs, permettant une meilleure capture des relations spatiales et des détails à grande échelle. Ce noyau est enrichi par un mécanisme de Mixture-of-Experts (MoE), qui permet d’activer dynamiquement certains sous-réseaux spécialisés selon le contenu du prompt, pour optimiser l’allocation des ressources lors de l’inférence.
Pour la compréhension linguistique, HiDream-I1 intègre un trio d’encodeurs de texte puissants et complémentaires : CLIP ViT-L pour l’ancrage visuel, T5-XXL pour le raisonnement sémantique profond, et LLaMA 3.1 (8B instruct) pour la compréhension fine et contextuelle des instructions complexes. Cette pluralité d’encodeurs donne au modèle une grande flexibilité pour interpréter une large gamme de prompts, y compris les plus riches ou ambigus.

Pipeline & API

Le modèle est fourni avec une pipeline personnalisée compatible avec la bibliothèque Diffusers, appelée HiDreamImagePipeline. Cette intégration permet une prise en main rapide dans n’importe quel environnement Python, que ce soit en ligne de commande, dans un notebook ou via une interface web. La pipeline supporte nativement les formats fp16 (pour les inférences en demi-précision) et safetensors (pour une gestion sécurisée et optimisée des poids), ce qui facilite son utilisation sur une large gamme de configurations matérielles.
Des optimisations avancées comme FlashAttention sont également disponibles pour améliorer l’efficacité des calculs dans les couches de transformeurs, réduisant considérablement les temps d’inférence sur GPU tout en maintenant une haute qualité de génération.

Entraînement

Le modèle a été entraîné sur un corpus vaste et diversifié, intégrant de nombreux styles visuels et une grande variété de structures textuelles. Cette richesse de données d’entraînement permet à HiDream-I1 d’exceller aussi bien dans des styles réalistes que stylisés ou abstraits.
Les versions Dev et Fast du modèle ont été obtenues grâce à des techniques de distillation, qui visent à transférer les connaissances du modèle Full tout en réduisant le nombre d’étapes de diffusion. Cette stratégie permet d’obtenir des modèles plus légers, plus rapides à exécuter, tout en conservant l’essentiel de la performance visuelle et sémantique du modèle d’origine.

Performances de HiDream-I1

Comparé à d’autres modèles récents, HiDream-I1 se révèle être une excellente alternative Open Source face aux modèles propriétaires.
Il est en effet en bonne positions parmi les meilleurs modèles du classement établis par artificialanalysis.ai où il affiche un score proche de Reve et de Recraft V3.
HiDream-I1
Seedream 3.0
Midjourney v6.1
GPT-4o
Score ELO
1111
1152
1047
1156
Classement
4e
🥈 2e
11e
🥇 1er
Points forts
Respect du prompt, Open Source
Polyvalence, qualité, textes
Styles et esthétique
Multimodalité et respect du prompt
Classement mis à jour le 22/04/2025

Articles et tutos Reve Image 1.0