Hier, j’ai utilisé ça avec Groq pour enrichir sous forme d’extension Chrome le jeu infiniment amusant de Neal Agrawal, en lui faisant générer de vraies images et pas seulement des emojis
La génération d’images et la génération par LLM quasiment en temps réel donnent l’impression de voir le futur. J’ai utilisé Mixtral de Groq pour rédiger les prompts, et l’API Fal pour la génération en temps réel https://x.com/altryne/status/1760561501096575401?s=20
Ce serait sympa de transformer ça en jeu à défilement horizontal, avec un arrière-plan qui transitionne progressivement et naturellement vers des rendus des mots abordés au fil de la progression
J’imagine le paysage bleu du début de la démo se transformer lentement en terrain montagneux aride de l’image de fin, avec un nouveau personnage qui apparaît au premier plan
Je me demande si on pourrait aussi en faire un jeu à base de cartes
Ça a vraiment l’air excellent. Je me demande s’il y aurait une possibilité de partager l’extension Chrome
Oui. En interne, ils utilisent SDXL Lightning, entraîné par ByteDance sur Stable Diffusion XL et publié en open source
Ils y ajoutent leur propre moteur d’inférence et leur infrastructure temps réel, ce qui offre une expérience plus fluide que les autres UI. Côté vitesse, je pense que la comparaison est difficile : ici, les 4 étapes prennent environ 370 ms, tandis que l’exemple Replicate lié est plutôt autour de 2 à 3 secondes
J’ai aussi fait une démo avec Gradio, mais elle est 2× plus lente que fal.ai. Elle utilise la compilation stable-fast sur un seul A10G https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
Si vous avez GPU/CUDA/Docker, vous pouvez aussi l’exécuter en local docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
Je me demande quelles sont la consommation mémoire et la vitesse en inférence locale
La vitesse est excellente
Pour la qualité, j’ai emprunté un prompt que des gens utilisaient aujourd’hui pour tester Stable Diffusion 3 et d’autres modèles : "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Voici le résultat que j’ai obtenu : https://imgur.com/a/XrAuqCB
À comparer avec Stable Diffusion 3 : https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
Le respect des prompts spatiaux est globalement un point faible de SDXL et des précédentes familles Stable Diffusion. J’espère que Stable Diffusion peaufinera bien cet aspect, comme dans l’exemple
J’ai aussi testé le même exemple avec Stable Cascade, le dernier modèle Stability à poids ouverts, et ce n’est pas terrible non plus : https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
En faisant varier le seed, les résultats changent énormément
La démo est vraiment impressionnante, mais elle aurait été encore plus bluffante si elle était plus fluide. Pour l’instant, par exemple, quand on efface un mot ou qu’on ajoute un espace, l’inférence se lance 4 fois en peu de temps, ce qui donne une impression de saccades
C’est peut-être volontaire pour montrer les résultats étape par étape. À noter que c’est une démo de fal.ai, et je les ai découverts le matin où ils ont mis en ligne leur démo le jour de la sortie de Stable Cascade
Si vous exécutez de l’inférence en dehors d’OpenAI, je recommande vivement fal.ai. Je suis dans le secteur de l’IA depuis près de 3 ans, et depuis l’an dernier j’y suis presque 24 h/24 ; Fal me semble être le premier service à soigner les détails pour rendre les choses aussi rapides en usage réel, pas seulement dans les chiffres d’un article
Par exemple, des détails comme les connexions WebSocket, ou des JWT à courte durée de vie qui évitent de devoir passer par une fonction edge pour signer les requêtes avec une clé d’API
À cette vitesse, plutôt que de sauter directement vers l’image cible, il vaudrait peut-être mieux générer des images intermédiaires en suivant un chemin fluide dans l’espace latent
J’adore vraiment cette démo. Elle est accessible, rapide et intuitive. C’est étonnant de pouvoir obtenir aussi facilement une qualité de ce niveau.
Cette démo et Groq sont vraiment bluffants. Il n’y a pas si longtemps, je me souviens encore d’attendre longtemps sur un site qui offrait une vingtaine de générations gratuites à la création d’un compte, juste pour recevoir une image ratée.
Maintenant, pouvoir aller sur un site web et générer du texte et des images à la vitesse de l’éclair, sans inscription ni CAPTCHA, c’est impressionnant. Surtout si l’on ajoute que Groq et fal.ai peuvent se permettre de laisser leurs démos complètement ouvertes : je n’aurais pas anticipé de tels gains de performance début 2024.
Je pense que la génération rapide compense aussi largement les défauts de qualité des images. Même en cas d’échec, un bon résultat n’est généralement qu’à une seed ou à une petite modification de prompt.
Je me demande comment cela peut être aussi rapide. Et je ne sais pas ce qu’est une image blob:[https://blbahblah](<https://blbahblah>).
Au passage, si l’on modifie un peu le prompt, le raton laveur a facilement deux queues.
Vraiment impressionnant. La réduction de la latence a un gros impact sur la manière d’interagir avec ce type d’outil.
Ici, l’avantage en vitesse ne se limite pas à générer davantage d’images : il permet de garder le même fil de pensée pendant qu’on enchaîne les essais, sans interruption.
C’est vraiment impressionnant, mais je me demande si quelqu’un sait comment générer un personnage cohérent avec Stable Diffusion.
Si le premier prompt décrit une fille qui parle avec un chat, et le second une fille qui joue avec ce chat, j’aimerais que la fille et le chat aient l’air identiques dans les deux images.
Si possible, des liens ou tutoriels à ce sujet seraient très utiles.
De mémoire, Dashtoon Studio permet de créer des BD avec des personnages cohérents à l’aide de Stable Diffusion : https://dashtoon.com/create
C’est possible dans Dashtoon Studio. Il suffit même d’importer une seule image pour entraîner un LoRA de personnage cohérent. C’est un logiciel de création de BD avec IA, et j’ai trouvé cette vidéo sur YouTube : https://www.youtube.com/watch?v=EEQwEvKQGvE
Les LoRA sont les plus polyvalents. Ils permettent d’obtenir le même personnage dans les poses et angles de caméra souhaités. IP-Adapter réplique trop de caractéristiques de l’image d’entrée, et il est difficile de choisir les éléments à ne pas répliquer, comme la pose. Cela peut donc rendre difficile de faire effectuer d’autres actions à un personnage fourni sous forme de portrait.
Reactor nécessite une image générée dans laquelle remplacer le visage. Cela fonctionne bien sur des images réalistes, mais sur des images stylisées, le style n’est pas conservé et la coiffure n’est pas copiée non plus.
Jusqu’à présent, Dashtoon est ce que j’ai trouvé de plus stable et de plus simple. Réunir 20 nouvelles images d’un personnage est difficile, et dans un jeu d’entraînement LoRA, les attributs des images — comme le nombre de gros plans ou le nombre d’expressions — comptent beaucoup.
Ça vaut le coup de regarder https://scenario.gg. On peut y entraîner son propre LoRA avec des images personnalisées du personnage, et pour obtenir une bonne cohérence, il faut environ 20 images sous plusieurs angles.
IP-Adapter est une approche plus simple mais encore assez correcte, et ce service la prend aussi en charge. Garder le chat cohérent sera probablement difficile sans LoRA personnalisé. Référence : https://help.scenario.com/training-a-character-lora
En général, utiliser simplement un nom suffit. Avec de bons modèles SD, Maria Smith ressemble presque toujours à Maria Smith.
Le comportement avec une seule lettre est intéressant. Dans mon cas, cela semble souvent converger vers de petits bâtiments assez détaillés.
Plus je répète la même lettre, par exemple 11111111 plutôt que 111, plus les bâtiments deviennent étranges. Maintenant que j’y regarde, cela semble assez sensible à la seed.
Les mots ou concepts inconnus n’ont quasiment aucun effet sur la sortie. Si l’on remplace baby raccoon par maxolhx dans le prompt, le modèle ignore ce mot et rend un prêtre italien.
À strictement parler, il y a toujours un effet, mais pas d’une manière que nous puissions expliquer facilement. C’est presque comme jouer avec la seed.
J’adore vraiment. Ce serait bien de pouvoir partager les URL late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
Le résultat de ce prompt était excellent
1 commentaires
Avis sur Hacker News
Hier, j’ai utilisé ça avec Groq pour enrichir sous forme d’extension Chrome le jeu infiniment amusant de Neal Agrawal, en lui faisant générer de vraies images et pas seulement des emojis
La génération d’images et la génération par LLM quasiment en temps réel donnent l’impression de voir le futur. J’ai utilisé Mixtral de Groq pour rédiger les prompts, et l’API Fal pour la génération en temps réel
https://x.com/altryne/status/1760561501096575401?s=20
J’imagine le paysage bleu du début de la démo se transformer lentement en terrain montagneux aride de l’image de fin, avec un nouveau personnage qui apparaît au premier plan
Pour mémoire, SDXL Lightning est open source et publié sur Hugging Face sous une licence relativement permissive : https://huggingface.co/ByteDance/SDXL-Lightning
Il existe aussi quelques autres UI. Par exemple : https://replicate.com/lucataco/sdxl-lightning-4step
Ils y ajoutent leur propre moteur d’inférence et leur infrastructure temps réel, ce qui offre une expérience plus fluide que les autres UI. Côté vitesse, je pense que la comparaison est difficile : ici, les 4 étapes prennent environ 370 ms, tandis que l’exemple Replicate lié est plutôt autour de 2 à 3 secondes
https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
Si vous avez GPU/CUDA/Docker, vous pouvez aussi l’exécuter en local
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.pyLa vitesse est excellente
Pour la qualité, j’ai emprunté un prompt que des gens utilisaient aujourd’hui pour tester Stable Diffusion 3 et d’autres modèles : "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
Voici le résultat que j’ai obtenu : https://imgur.com/a/XrAuqCB
À comparer avec Stable Diffusion 3 : https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
J’ai aussi testé le même exemple avec Stable Cascade, le dernier modèle Stability à poids ouverts, et ce n’est pas terrible non plus : https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
Seed : 3919562
La démo est vraiment impressionnante, mais elle aurait été encore plus bluffante si elle était plus fluide. Pour l’instant, par exemple, quand on efface un mot ou qu’on ajoute un espace, l’inférence se lance 4 fois en peu de temps, ce qui donne une impression de saccades
C’est peut-être volontaire pour montrer les résultats étape par étape. À noter que c’est une démo de fal.ai, et je les ai découverts le matin où ils ont mis en ligne leur démo le jour de la sortie de Stable Cascade
Si vous exécutez de l’inférence en dehors d’OpenAI, je recommande vivement fal.ai. Je suis dans le secteur de l’IA depuis près de 3 ans, et depuis l’an dernier j’y suis presque 24 h/24 ; Fal me semble être le premier service à soigner les détails pour rendre les choses aussi rapides en usage réel, pas seulement dans les chiffres d’un article
Par exemple, des détails comme les connexions WebSocket, ou des JWT à courte durée de vie qui évitent de devoir passer par une fonction edge pour signer les requêtes avec une clé d’API
J’adore vraiment cette démo. Elle est accessible, rapide et intuitive. C’est étonnant de pouvoir obtenir aussi facilement une qualité de ce niveau.
Maintenant, pouvoir aller sur un site web et générer du texte et des images à la vitesse de l’éclair, sans inscription ni CAPTCHA, c’est impressionnant. Surtout si l’on ajoute que Groq et fal.ai peuvent se permettre de laisser leurs démos complètement ouvertes : je n’aurais pas anticipé de tels gains de performance début 2024.
Je pense que la génération rapide compense aussi largement les défauts de qualité des images. Même en cas d’échec, un bon résultat n’est généralement qu’à une seed ou à une petite modification de prompt.
Je me demande comment cela peut être aussi rapide. Et je ne sais pas ce qu’est une image
blob:[https://blbahblah](<https://blbahblah>).Au passage, si l’on modifie un peu le prompt, le raton laveur a facilement deux queues.
https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
C’est une façon de transformer un fichier ou un Blob en URL utilisable dans un élément image, par exemple.
Vraiment impressionnant. La réduction de la latence a un gros impact sur la manière d’interagir avec ce type d’outil.
Ici, l’avantage en vitesse ne se limite pas à générer davantage d’images : il permet de garder le même fil de pensée pendant qu’on enchaîne les essais, sans interruption.
C’est vraiment impressionnant, mais je me demande si quelqu’un sait comment générer un personnage cohérent avec Stable Diffusion.
Si le premier prompt décrit une fille qui parle avec un chat, et le second une fille qui joue avec ce chat, j’aimerais que la fille et le chat aient l’air identiques dans les deux images.
Si possible, des liens ou tutoriels à ce sujet seraient très utiles.
Les LoRA sont les plus polyvalents. Ils permettent d’obtenir le même personnage dans les poses et angles de caméra souhaités. IP-Adapter réplique trop de caractéristiques de l’image d’entrée, et il est difficile de choisir les éléments à ne pas répliquer, comme la pose. Cela peut donc rendre difficile de faire effectuer d’autres actions à un personnage fourni sous forme de portrait.
Reactor nécessite une image générée dans laquelle remplacer le visage. Cela fonctionne bien sur des images réalistes, mais sur des images stylisées, le style n’est pas conservé et la coiffure n’est pas copiée non plus.
Jusqu’à présent, Dashtoon est ce que j’ai trouvé de plus stable et de plus simple. Réunir 20 nouvelles images d’un personnage est difficile, et dans un jeu d’entraînement LoRA, les attributs des images — comme le nombre de gros plans ou le nombre d’expressions — comptent beaucoup.
IP-Adapter est une approche plus simple mais encore assez correcte, et ce service la prend aussi en charge. Garder le chat cohérent sera probablement difficile sans LoRA personnalisé. Référence : https://help.scenario.com/training-a-character-lora
Le comportement avec une seule lettre est intéressant. Dans mon cas, cela semble souvent converger vers de petits bâtiments assez détaillés.
Plus je répète la même lettre, par exemple
11111111plutôt que111, plus les bâtiments deviennent étranges. Maintenant que j’y regarde, cela semble assez sensible à la seed.baby raccoonparmaxolhxdans le prompt, le modèle ignore ce mot et rend un prêtre italien.À strictement parler, il y a toujours un effet, mais pas d’une manière que nous puissions expliquer facilement. C’est presque comme jouer avec la seed.
J’adore vraiment. Ce serait bien de pouvoir partager les URL
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1Le résultat de ce prompt était excellent
Un héros ressemble à ça : https://fastsdxl.ai/share/x9jxax4pnljd
Un terroriste ressemble à ça : https://fastsdxl.ai/share/ejtyvv9ahpfs
La personne que j’aimerais être ressemble à ça : https://fastsdxl.ai/share/8ekkecm5rqsr
Grâce à la vitesse élevée, c’est très intéressant de pouvoir évaluer rapidement les biais intégrés en ne changeant que la seed