3 points par GN⁺ 2024-08-02 | 1 commentaires | Partager sur WhatsApp
  • Génère des assets 3D de haute qualité à partir d’une seule image en seulement 0,5 seconde
  • Construit sur la base de TripoSR, avec d’importantes améliorations d’architecture et des fonctionnalités enrichies
  • Applicable non seulement aux développeurs de jeux et de réalité virtuelle, mais aussi aux professionnels du retail, de l’architecture, du design et d’autres métiers à forte intensité graphique
  • Le modèle est disponible sur Hugging Face et publié sous la Stability AI Community License
  • Le modèle est facilement accessible via l’API de Stability AI et le chatbot Stable Assistant, et il est possible de partager des créations 3D dans un visualiseur 3D et de les essayer en réalité augmentée
  • Peut être testé via un essai gratuit

Fonctionnement

  • L’utilisateur commence par téléverser une image unique de l’objet
  • Stable Fast 3D génère rapidement un asset 3D complet, incluant un mesh avec UV unwrapped, des paramètres de matériau et des couleurs d’albédo avec éclairage réduit
  • Il est possible en option d’effectuer une reconstruction en quads ou en triangles, ce qui n’ajoute que 100 à 200 ms au temps de traitement

Cas d’usage

  • Exploiter un temps d’inférence rapide, essentiel lorsque l’expérimentation est clé en phase de préproduction
  • Assets statiques pour les jeux (objets d’arrière-plan, bric-à-brac, mobilier)
  • Modèles 3D pour l’e-commerce
  • Génération rapide de modèles pour l’AR/VR

Quand vitesse et qualité se rencontrent

  • Avantage de performance sur les concurrents dans plusieurs domaines clés
  • Vitesse rapide de 0,5 seconde par génération d’asset 3D sur un GPU doté de 7 Go de VRAM
  • Mesh UV unwrap et paramètres de matériau de haute qualité
  • Réduction de l’imbrication de l’éclairage dans les textures
  • Possibilité de générer des paramètres de matériau supplémentaires et des normal maps

Recherche et développement

  • Basé sur TripoSR, mais avec un modèle entièrement réentraîné et des changements d’architecture majeurs
  • Les améliorations incluent une génération explicite de mesh et de nouvelles techniques pour une génération rapide de mesh texturés
  • Le rapport technique met en avant la manière dont la vitesse d’inférence élevée est obtenue grâce à un éclairage bake réduit et à des paramètres de matériau

Disponibilité

  • Le code du modèle Stable Fast 3D est disponible sur Github et Hugging Face
  • Sous la Stability AI Community License, l’usage non commercial est autorisé ainsi que l’usage commercial jusqu’à 1 M$ de chiffre d’affaires annuel
  • Le modèle est accessible via l’API et Stable Assistant

L’avis de GN⁺

  • Cette technologie de génération de modèles 3D est intéressante car elle peut être utilisée dans divers domaines, notamment le jeu, la réalité virtuelle/augmentée, le design et l’architecture. En particulier, la génération rapide d’assets 3D de haute qualité à partir d’une seule image pourrait contribuer à améliorer la productivité.
  • Cependant, la généralisation de tels modèles fondés sur l’IA pourrait avoir un impact sur l’emploi de professionnels comme les graphistes ou les modeleurs, car des assets 3D auparavant créés manuellement peuvent être automatisés. Il sera difficile pour l’IA de remplacer complètement l’humain, mais une réduction partielle de certains rôles semble difficile à éviter.
  • Il faut aussi prendre en compte la question du droit d’auteur des modèles 3D générés. Une compensation ou un crédit approprié devrait être accordé pour les images utilisées dans l’entraînement. Il semble nécessaire de mettre en place des règles juridiques et des lignes directrices concernant les créations générées par l’IA.
  • Parmi les technologies similaires, on trouve Nvidia Instant Nerf et RealityScan d’Epic Games. Elles offrent des fonctions de génération de modèles 3D à partir de photos ou de scans. Leur forte compatibilité avec les moteurs de jeu est un atout. En revanche, elles semblent encore en retrait sur la capacité à produire aussi rapidement des résultats de haute qualité à partir d’une seule image comme Stable Fast 3D.
  • En résumé, Stable Fast 3D devrait contribuer à améliorer la productivité dans les domaines des graphismes 3D comme le jeu vidéo ou le XR grâce à sa rapidité et à sa qualité. Il reste toutefois nécessaire de rechercher un consensus social sur les enjeux éthiques et juridiques.

1 commentaires

 
GN⁺ 2024-08-02
Avis sur Hacker News
  • Malgré les grandes attentes autour des LLM, la génération d’images et les assets graphiques ont actuellement plus de chances d’être les grands gagnants de l’IA à long terme

    • Les « hallucinations » sont une fonctionnalité, pas un bug
    • Il est facile de voir des sorties irréalistes et biaisées sans tests statistiques complexes
    • L’intuition humaine est utile pour l’évaluation et n’est pas surestimée, contrairement aux modèles de génération de texte
    • Les méthodes avec pertes ou bruit peuvent aussi être utiles pour divers travaux créatifs
    • La perfection n’est pas nécessaire, et les caractéristiques déformées sont faciles à repérer puis à améliorer
    • La cohérence n’est pas indispensable, mais si elle apparaît, elle peut apporter une grande valeur à des applications comme la vidéo
    • Des techniques comme LoRA permettent même à des utilisateurs peu expérimentés d’entraîner facilement des modèles de personnages, de styles ou de concepts spécifiques
    • Les modèles de génération d’images/visuels se sont nettement améliorés au cours de l’année écoulée, sans que le rythme de progression ralentisse davantage que pour les modèles de texte
    • L’avenir ne sera pas un remplacement total des photographes, réalisateurs, etc., mais une génération de puissants outils fondés sur l’IA
    • Des outils capables d’ajouter ou de supprimer des concepts dans une image avec quelques prompts textuels sont extrêmement utiles
    • Comme avec Photoshop dans les années 1990, une nouvelle génération de power users puissants est en train d’émerger
  • Sur la troisième image testée, toutes les IA 3D donnaient l’impression d’être des rendus 2D de modèles 3D

    • Le test a été fait avec une image en cel shading, et la sortie du modèle était très plate avec une topologie médiocre
    • Sans ombres précises, il semble impossible de recalculer les vecteurs normaux, donc le système ne semble pas comprendre la structure
    • Il serait utile d’indiquer explicitement l’ensemble d’entrées pour lesquelles on peut s’attendre à des résultats corrects
  • Ce n’est pas encore parfait, mais c’est assez impressionnant

    • Cela peut servir d’ornement peu coûteux en effort pour ajouter de la complexité à une scène principale, plutôt que comme asset principal
    • Cela peut être utilisé dans des cas où un imposteur billboard 2D ne suffirait pas
    • On peut générer des images avec Midjourney, Bing ou Dalle3, puis les glisser-déposer pour obtenir une présentation 3D étonnamment bonne
    • Cela peut servir de décoration dans une scène 3D où la caméra ne voit pas l’arrière
  • J’ai hâte que cette technologie s’améliore

    • Les résultats des tests ne sont pas utiles
    • Corriger un mauvais modèle à partir de la sortie image demande encore plus de travail
    • Il vaudrait sans doute mieux passer par une série d’étapes pour obtenir lentement un produit final de meilleure qualité
    • Il est possible que je passe à côté du bon cas d’usage
  • Il faut 0,5 seconde pour générer un asset 3D sur GPU avec 7 Go de VRAM

    • Je pensais que ce serait un modèle réservé aux data centers, mais 7 Go de VRAM suggèrent que cela peut tourner sur du matériel que beaucoup d’artistes 3D possèdent déjà
  • J’espère vraiment voir de vrais progrès dans ce domaine

    • On peut essayer en glissant une image dans la démo HuggingFace
    • Cela ne fonctionnait pas bien avec une image de chat, mais plutôt bien avec une image d’iPhone
    • C’était impressionnant avec une image de pancake, et catastrophique avec une image de fusée
    • C’était de nouveau impressionnant avec une image de boule de billard
  • Je compte imprimer en 3D beaucoup de choses amusantes avec cette technologie

  • On dirait qu’ils ont utilisé la tactique classique des infopublicités consistant à désaturer l’image de comparaison pour améliorer le rendu visuel

  • Il est possible d’interagir avec le modèle depuis la page du projet

  • Cela ravive mon enthousiasme pour la peinture de figurines miniatures