Stable Fast 3D - Générer rapidement des assets 3D à partir d’une seule image

(stability.ai)

3 points par GN⁺ 2024-08-02 | 1 commentaires | Partager sur WhatsApp

Génère des assets 3D de haute qualité à partir d’une seule image en seulement 0,5 seconde
Construit sur la base de TripoSR, avec d’importantes améliorations d’architecture et des fonctionnalités enrichies
Applicable non seulement aux développeurs de jeux et de réalité virtuelle, mais aussi aux professionnels du retail, de l’architecture, du design et d’autres métiers à forte intensité graphique
Le modèle est disponible sur Hugging Face et publié sous la Stability AI Community License
Le modèle est facilement accessible via l’API de Stability AI et le chatbot Stable Assistant, et il est possible de partager des créations 3D dans un visualiseur 3D et de les essayer en réalité augmentée
Peut être testé via un essai gratuit

Fonctionnement

L’utilisateur commence par téléverser une image unique de l’objet
Stable Fast 3D génère rapidement un asset 3D complet, incluant un mesh avec UV unwrapped, des paramètres de matériau et des couleurs d’albédo avec éclairage réduit
Il est possible en option d’effectuer une reconstruction en quads ou en triangles, ce qui n’ajoute que 100 à 200 ms au temps de traitement

Cas d’usage

Exploiter un temps d’inférence rapide, essentiel lorsque l’expérimentation est clé en phase de préproduction
Assets statiques pour les jeux (objets d’arrière-plan, bric-à-brac, mobilier)
Modèles 3D pour l’e-commerce
Génération rapide de modèles pour l’AR/VR

Quand vitesse et qualité se rencontrent

Avantage de performance sur les concurrents dans plusieurs domaines clés
Vitesse rapide de 0,5 seconde par génération d’asset 3D sur un GPU doté de 7 Go de VRAM
Mesh UV unwrap et paramètres de matériau de haute qualité
Réduction de l’imbrication de l’éclairage dans les textures
Possibilité de générer des paramètres de matériau supplémentaires et des normal maps

Recherche et développement

Basé sur TripoSR, mais avec un modèle entièrement réentraîné et des changements d’architecture majeurs
Les améliorations incluent une génération explicite de mesh et de nouvelles techniques pour une génération rapide de mesh texturés
Le rapport technique met en avant la manière dont la vitesse d’inférence élevée est obtenue grâce à un éclairage bake réduit et à des paramètres de matériau

Disponibilité

Le code du modèle Stable Fast 3D est disponible sur Github et Hugging Face
Sous la Stability AI Community License, l’usage non commercial est autorisé ainsi que l’usage commercial jusqu’à 1 M$ de chiffre d’affaires annuel
Le modèle est accessible via l’API et Stable Assistant

L’avis de GN⁺

Cette technologie de génération de modèles 3D est intéressante car elle peut être utilisée dans divers domaines, notamment le jeu, la réalité virtuelle/augmentée, le design et l’architecture. En particulier, la génération rapide d’assets 3D de haute qualité à partir d’une seule image pourrait contribuer à améliorer la productivité.
Cependant, la généralisation de tels modèles fondés sur l’IA pourrait avoir un impact sur l’emploi de professionnels comme les graphistes ou les modeleurs, car des assets 3D auparavant créés manuellement peuvent être automatisés. Il sera difficile pour l’IA de remplacer complètement l’humain, mais une réduction partielle de certains rôles semble difficile à éviter.
Il faut aussi prendre en compte la question du droit d’auteur des modèles 3D générés. Une compensation ou un crédit approprié devrait être accordé pour les images utilisées dans l’entraînement. Il semble nécessaire de mettre en place des règles juridiques et des lignes directrices concernant les créations générées par l’IA.
Parmi les technologies similaires, on trouve Nvidia Instant Nerf et RealityScan d’Epic Games. Elles offrent des fonctions de génération de modèles 3D à partir de photos ou de scans. Leur forte compatibilité avec les moteurs de jeu est un atout. En revanche, elles semblent encore en retrait sur la capacité à produire aussi rapidement des résultats de haute qualité à partir d’une seule image comme Stable Fast 3D.
En résumé, Stable Fast 3D devrait contribuer à améliorer la productivité dans les domaines des graphismes 3D comme le jeu vidéo ou le XR grâce à sa rapidité et à sa qualité. Il reste toutefois nécessaire de rechercher un consensus social sur les enjeux éthiques et juridiques.

1 commentaires

GN⁺ 2024-08-02

Avis sur Hacker News

Malgré les grandes attentes autour des LLM, la génération d’images et les assets graphiques ont actuellement plus de chances d’être les grands gagnants de l’IA à long terme
- Les « hallucinations » sont une fonctionnalité, pas un bug
- Il est facile de voir des sorties irréalistes et biaisées sans tests statistiques complexes
- L’intuition humaine est utile pour l’évaluation et n’est pas surestimée, contrairement aux modèles de génération de texte
- Les méthodes avec pertes ou bruit peuvent aussi être utiles pour divers travaux créatifs
- La perfection n’est pas nécessaire, et les caractéristiques déformées sont faciles à repérer puis à améliorer
- La cohérence n’est pas indispensable, mais si elle apparaît, elle peut apporter une grande valeur à des applications comme la vidéo
- Des techniques comme LoRA permettent même à des utilisateurs peu expérimentés d’entraîner facilement des modèles de personnages, de styles ou de concepts spécifiques
- Les modèles de génération d’images/visuels se sont nettement améliorés au cours de l’année écoulée, sans que le rythme de progression ralentisse davantage que pour les modèles de texte
- L’avenir ne sera pas un remplacement total des photographes, réalisateurs, etc., mais une génération de puissants outils fondés sur l’IA
- Des outils capables d’ajouter ou de supprimer des concepts dans une image avec quelques prompts textuels sont extrêmement utiles
- Comme avec Photoshop dans les années 1990, une nouvelle génération de power users puissants est en train d’émerger
Sur la troisième image testée, toutes les IA 3D donnaient l’impression d’être des rendus 2D de modèles 3D
- Le test a été fait avec une image en cel shading, et la sortie du modèle était très plate avec une topologie médiocre
- Sans ombres précises, il semble impossible de recalculer les vecteurs normaux, donc le système ne semble pas comprendre la structure
- Il serait utile d’indiquer explicitement l’ensemble d’entrées pour lesquelles on peut s’attendre à des résultats corrects
Ce n’est pas encore parfait, mais c’est assez impressionnant
- Cela peut servir d’ornement peu coûteux en effort pour ajouter de la complexité à une scène principale, plutôt que comme asset principal
- Cela peut être utilisé dans des cas où un imposteur billboard 2D ne suffirait pas
- On peut générer des images avec Midjourney, Bing ou Dalle3, puis les glisser-déposer pour obtenir une présentation 3D étonnamment bonne
- Cela peut servir de décoration dans une scène 3D où la caméra ne voit pas l’arrière
J’ai hâte que cette technologie s’améliore
- Les résultats des tests ne sont pas utiles
- Corriger un mauvais modèle à partir de la sortie image demande encore plus de travail
- Il vaudrait sans doute mieux passer par une série d’étapes pour obtenir lentement un produit final de meilleure qualité
- Il est possible que je passe à côté du bon cas d’usage
Il faut 0,5 seconde pour générer un asset 3D sur GPU avec 7 Go de VRAM
- Je pensais que ce serait un modèle réservé aux data centers, mais 7 Go de VRAM suggèrent que cela peut tourner sur du matériel que beaucoup d’artistes 3D possèdent déjà
J’espère vraiment voir de vrais progrès dans ce domaine
- On peut essayer en glissant une image dans la démo HuggingFace
- Cela ne fonctionnait pas bien avec une image de chat, mais plutôt bien avec une image d’iPhone
- C’était impressionnant avec une image de pancake, et catastrophique avec une image de fusée
- C’était de nouveau impressionnant avec une image de boule de billard
Je compte imprimer en 3D beaucoup de choses amusantes avec cette technologie
On dirait qu’ils ont utilisé la tactique classique des infopublicités consistant à désaturer l’image de comparaison pour améliorer le rendu visuel
Il est possible d’interagir avec le modèle depuis la page du projet
Cela ravive mon enthousiasme pour la peinture de figurines miniatures

Stable Fast 3D - Générer rapidement des assets 3D à partir d’une seule image

Fonctionnement

Cas d’usage

Quand vitesse et qualité se rencontrent

Recherche et développement

Disponibilité

L’avis de GN⁺

À lire aussi

1 commentaires

Avis sur Hacker News