1 commentaires

 
GN⁺ 2024-02-23
Avis sur Hacker News
  • Hier, j’ai utilisé ça avec Groq pour enrichir sous forme d’extension Chrome le jeu infiniment amusant de Neal Agrawal, en lui faisant générer de vraies images et pas seulement des emojis
    La génération d’images et la génération par LLM quasiment en temps réel donnent l’impression de voir le futur. J’ai utilisé Mixtral de Groq pour rédiger les prompts, et l’API Fal pour la génération en temps réel
    https://x.com/altryne/status/1760561501096575401?s=20

    • Ce serait sympa de transformer ça en jeu à défilement horizontal, avec un arrière-plan qui transitionne progressivement et naturellement vers des rendus des mots abordés au fil de la progression
      J’imagine le paysage bleu du début de la démo se transformer lentement en terrain montagneux aride de l’image de fin, avec un nouveau personnage qui apparaît au premier plan
    • Je me demande si on pourrait aussi en faire un jeu à base de cartes
    • Ça a vraiment l’air excellent. Je me demande s’il y aurait une possibilité de partager l’extension Chrome
  • Pour mémoire, SDXL Lightning est open source et publié sur Hugging Face sous une licence relativement permissive : https://huggingface.co/ByteDance/SDXL-Lightning
    Il existe aussi quelques autres UI. Par exemple : https://replicate.com/lucataco/sdxl-lightning-4step

    • Oui. En interne, ils utilisent SDXL Lightning, entraîné par ByteDance sur Stable Diffusion XL et publié en open source
      Ils y ajoutent leur propre moteur d’inférence et leur infrastructure temps réel, ce qui offre une expérience plus fluide que les autres UI. Côté vitesse, je pense que la comparaison est difficile : ici, les 4 étapes prennent environ 370 ms, tandis que l’exemple Replicate lié est plutôt autour de 2 à 3 secondes
    • J’ai aussi fait une démo avec Gradio, mais elle est 2× plus lente que fal.ai. Elle utilise la compilation stable-fast sur un seul A10G
      https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
      Si vous avez GPU/CUDA/Docker, vous pouvez aussi l’exécuter en local
      docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
    • Je me demande quelles sont la consommation mémoire et la vitesse en inférence locale
  • La vitesse est excellente
    Pour la qualité, j’ai emprunté un prompt que des gens utilisaient aujourd’hui pour tester Stable Diffusion 3 et d’autres modèles : "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
    Voici le résultat que j’ai obtenu : https://imgur.com/a/XrAuqCB
    À comparer avec Stable Diffusion 3 : https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...

    1. https://news.ycombinator.com/item?id=39467526
    • Le respect des prompts spatiaux est globalement un point faible de SDXL et des précédentes familles Stable Diffusion. J’espère que Stable Diffusion peaufinera bien cet aspect, comme dans l’exemple
      J’ai aussi testé le même exemple avec Stable Cascade, le dernier modèle Stability à poids ouverts, et ce n’est pas terrible non plus : https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
    • Le résultat que j’ai obtenu est assez exact : https://imgur.com/a/vH0zq5b
      Seed : 3919562
    • En faisant varier le seed, les résultats changent énormément
  • La démo est vraiment impressionnante, mais elle aurait été encore plus bluffante si elle était plus fluide. Pour l’instant, par exemple, quand on efface un mot ou qu’on ajoute un espace, l’inférence se lance 4 fois en peu de temps, ce qui donne une impression de saccades
    C’est peut-être volontaire pour montrer les résultats étape par étape. À noter que c’est une démo de fal.ai, et je les ai découverts le matin où ils ont mis en ligne leur démo le jour de la sortie de Stable Cascade
    Si vous exécutez de l’inférence en dehors d’OpenAI, je recommande vivement fal.ai. Je suis dans le secteur de l’IA depuis près de 3 ans, et depuis l’an dernier j’y suis presque 24 h/24 ; Fal me semble être le premier service à soigner les détails pour rendre les choses aussi rapides en usage réel, pas seulement dans les chiffres d’un article
    Par exemple, des détails comme les connexions WebSocket, ou des JWT à courte durée de vie qui évitent de devoir passer par une fonction edge pour signer les requêtes avec une clé d’API

    • À cette vitesse, plutôt que de sauter directement vers l’image cible, il vaudrait peut-être mieux générer des images intermédiaires en suivant un chemin fluide dans l’espace latent
  • J’adore vraiment cette démo. Elle est accessible, rapide et intuitive. C’est étonnant de pouvoir obtenir aussi facilement une qualité de ce niveau.

    • Cette démo et Groq sont vraiment bluffants. Il n’y a pas si longtemps, je me souviens encore d’attendre longtemps sur un site qui offrait une vingtaine de générations gratuites à la création d’un compte, juste pour recevoir une image ratée.
      Maintenant, pouvoir aller sur un site web et générer du texte et des images à la vitesse de l’éclair, sans inscription ni CAPTCHA, c’est impressionnant. Surtout si l’on ajoute que Groq et fal.ai peuvent se permettre de laisser leurs démos complètement ouvertes : je n’aurais pas anticipé de tels gains de performance début 2024.
      Je pense que la génération rapide compense aussi largement les défauts de qualité des images. Même en cas d’échec, un bon résultat n’est généralement qu’à une seed ou à une petite modification de prompt.
  • Je me demande comment cela peut être aussi rapide. Et je ne sais pas ce qu’est une image blob:[https://blbahblah](<https://blbahblah>;).
    Au passage, si l’on modifie un peu le prompt, le raton laveur a facilement deux queues.

  • Vraiment impressionnant. La réduction de la latence a un gros impact sur la manière d’interagir avec ce type d’outil.
    Ici, l’avantage en vitesse ne se limite pas à générer davantage d’images : il permet de garder le même fil de pensée pendant qu’on enchaîne les essais, sans interruption.

  • C’est vraiment impressionnant, mais je me demande si quelqu’un sait comment générer un personnage cohérent avec Stable Diffusion.
    Si le premier prompt décrit une fille qui parle avec un chat, et le second une fille qui joue avec ce chat, j’aimerais que la fille et le chat aient l’air identiques dans les deux images.
    Si possible, des liens ou tutoriels à ce sujet seraient très utiles.

    • De mémoire, Dashtoon Studio permet de créer des BD avec des personnages cohérents à l’aide de Stable Diffusion : https://dashtoon.com/create
    • C’est possible dans Dashtoon Studio. Il suffit même d’importer une seule image pour entraîner un LoRA de personnage cohérent. C’est un logiciel de création de BD avec IA, et j’ai trouvé cette vidéo sur YouTube : https://www.youtube.com/watch?v=EEQwEvKQGvE
      Les LoRA sont les plus polyvalents. Ils permettent d’obtenir le même personnage dans les poses et angles de caméra souhaités. IP-Adapter réplique trop de caractéristiques de l’image d’entrée, et il est difficile de choisir les éléments à ne pas répliquer, comme la pose. Cela peut donc rendre difficile de faire effectuer d’autres actions à un personnage fourni sous forme de portrait.
      Reactor nécessite une image générée dans laquelle remplacer le visage. Cela fonctionne bien sur des images réalistes, mais sur des images stylisées, le style n’est pas conservé et la coiffure n’est pas copiée non plus.
      Jusqu’à présent, Dashtoon est ce que j’ai trouvé de plus stable et de plus simple. Réunir 20 nouvelles images d’un personnage est difficile, et dans un jeu d’entraînement LoRA, les attributs des images — comme le nombre de gros plans ou le nombre d’expressions — comptent beaucoup.
    • Ça vaut le coup de regarder https://scenario.gg. On peut y entraîner son propre LoRA avec des images personnalisées du personnage, et pour obtenir une bonne cohérence, il faut environ 20 images sous plusieurs angles.
      IP-Adapter est une approche plus simple mais encore assez correcte, et ce service la prend aussi en charge. Garder le chat cohérent sera probablement difficile sans LoRA personnalisé. Référence : https://help.scenario.com/training-a-character-lora
    • En général, utiliser simplement un nom suffit. Avec de bons modèles SD, Maria Smith ressemble presque toujours à Maria Smith.
    • Mickey a l’air assez cohérent : https://fastsdxl.ai/share/4us7hrp3jm20
  • Le comportement avec une seule lettre est intéressant. Dans mon cas, cela semble souvent converger vers de petits bâtiments assez détaillés.
    Plus je répète la même lettre, par exemple 11111111 plutôt que 111, plus les bâtiments deviennent étranges. Maintenant que j’y regarde, cela semble assez sensible à la seed.

    • Les mots ou concepts inconnus n’ont quasiment aucun effet sur la sortie. Si l’on remplace baby raccoon par maxolhx dans le prompt, le modèle ignore ce mot et rend un prêtre italien.
      À strictement parler, il y a toujours un effet, mais pas d’une manière que nous puissions expliquer facilement. C’est presque comme jouer avec la seed.
  • J’adore vraiment. Ce serait bien de pouvoir partager les URL
    late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
    Le résultat de ce prompt était excellent