Défi de production automatisée sans intervention humaine : de la création d’histoires à la vidéo par une IA basée sur les GPTs
(youtube.com)Créer du storytelling est très important pour tout le monde, mais c’est aussi une partie difficile.
Quoi qu’il en soit, l’essentiel reste de créer une bonne histoire.
L’arrivée de ChatGPT a apporté une révolution dans la génération d’histoires à l’aide de l’IA, mais il me semble qu’il reste encore un long chemin à parcourir.
Il y a presque un an, j’avais déjà créé un livre de contes avec ChatGPT et Stable Diffusion,
puis l’avais publié sur Kakao Brunch ; cette fois, j’ai décidé d’aller plus loin vers le multimodal.
L’objectif, après une configuration initiale, était de faire en sorte que « l’IA produise seule plus de 99 % du résultat final, sans intervention humaine », l’automatisation sans opérateur étant au cœur du projet.
Bien sûr, il est indispensable qu’une histoire originale et cohérente soit reliée par des relations de cause à effet.
J’ai donc défini comme objectif opérationnel un « contenu YouTube pour enfants ».
J’ai choisi ce format pour plusieurs raisons :
- il serait relativement plus facile de traiter l’histoire ;
- l’effet attendu me semblait important par rapport à la qualité de la vidéo ;
- je n’avais encore jamais créé de contenu pour enfants et je voulais essayer.
[Concevoir une méthode d’exécution concrète (architecture) et la construire soi-même]
-
J’ai estimé que la logique de génération d’histoires devait être « conçue comme une structure capable d’ajouter continuellement de nouveaux épisodes tout en conservant la cohérence », afin d’assurer la continuité.
-
J’ai donc créé des GPTs dédiés au storytelling pour enfants. (Ils sont actuellement configurés en privé.)
Les instructions des GPTs tiennent sur environ une page A4 et ont été réglées avec un très grand niveau de détail (« le but étant de préserver le concept global et le contexte »).
J’ai imposé l’usage de mots-clés précis au début et à la fin de tous les textes produits dans les instructions (un dispositif textuel destiné à faire comprendre le concept et le contexte même à quelqu’un qui découvre la vidéo pour la première fois, tout en donnant envie de voir l’épisode suivant).
Le corps du texte suit le fil naturel du temps, autour d’un axe crise, conflit, résolution ; j’ai ajouté de nombreux exemples détaillés pour maintenir le contexte et faire en sorte que la génération de nouveaux épisodes respecte également ces règles.
*J’ai défini le concept de « L’aventure de Tori » comme celui d’« un garçon dont le visage change chaque matin au réveil » parce qu’il est difficile de conserver un seed constant lors de la génération d’images ; l’idée était donc de transformer d’emblée cette faiblesse en avantage, et comme un nouvel épisode est généré à chaque fois, j’ai jugé que c’était au contraire encore mieux. -
Pour permettre un traitement ultérieur et la génération multimodale, j’ai relié par API les Actions aux scripts générés dans les GPTs via Zapier.
*Pour la méthode détaillée de configuration des GPTs Actions, voir le lien Kakao Brunch que j’ai rédigé :
https://brunch.co.kr/@seawolf/9
- Une fois connecté aux GPTs, j’ai fait en sorte qu’ils me demandent un « mot-clé de thème pour le nouvel épisode ». C’est la seule décision laissée à l’humain. Bien sûr, cela pourrait aussi être fait aléatoirement.
La méthode de sélection du « mot-clé de thème » suit la procédure suivante, définie dans les instructions :
- via un portail de recherche, les GPTs extraient et proposent les derniers « mots-clés » appréciés des enfants (jugés notamment par le volume de recherche ; en pratique, les jeux et les activités ludiques dominent largement) ;
- je choisis parmi les mots-clés proposés celui qui me plaît ;
- selon la logique définie dans les instructions, une nouvelle histoire cohérente d’une page est immédiatement produite ;
- dans la plupart des cas, le contenu est original et satisfaisant, mais il est possible de demander de légères modifications ou suppressions via un prompt ;
- une fois le texte validé définitivement, il suffit d’ordonner via les Actions de « l’envoyer à mon e-mail ou via API » pour qu’il soit transmis immédiatement et déclenche le trigger.
-
À partir de là, dans Zapier, qui est appelé depuis les GPTs et reçoit la valeur transmise (le texte), les API sont invoquées dans l’ordre que j’ai configuré, et réalisent le traitement, la fusion et la génération des données.
-
Composition multimodale jusqu’à la génération de la vidéo finale (API et utilisation de plusieurs plateformes de services)
- script texte optimisé ;
- génération de voix à partir du texte ;
- extraction automatique du contexte et des mots-clés à partir des segments du script (généralement des blocs de une à trois phrases) pour générer les images ;
- placement automatique d’éléments complémentaires comme la musique, les effets sonores et les émoticônes selon le contexte ;
- affichage de la voix générée en sous-titres ;
- rendu final de la vidéo ;
- en option, « conversion multilingue ».
- Terminé avec le téléchargement du résultat final
- Mise en ligne comme contenu YouTube
En mesurant le temps nécessaire (qui diminue progressivement) :
- processus complet de création d’une nouvelle histoire via les GPTs : moins d’une minute ;
- traitement ultérieur des API backend via l’appel des Actions : environ 1 à 2 minutes ;
- jusqu’à la génération automatique de la vidéo multimodale finale : environ 3 minutes ;
- à ce stade, si une personne vérifie et fait quelques retouches sur les parties à corriger, la qualité augmente fortement (pour de simples retouches, compter environ 3 minutes) ;
- rendu final : 3 à 5 minutes (selon la taille de la vidéo).
Autrement dit, en 10 minutes, on peut produire une vidéo pour enfants assez solide et divertissante, avec un décor en modélisation 3D, d’un niveau tout à fait correct.
Côté coûts, même en additionnant les frais de quelques API payantes, dont OPENAI, ainsi que l’hébergement, le coût de revient pour une vidéo de moins de 3 minutes serait inférieur à 1 000 wons par minute.
[Liens pour voir les résultats terminés]
« L’aventure de Tori » épisode 1 : transformation en star de K-POP (coréen)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s
« L’aventure de Tori » épisode 1 : transformation en star de K-POP (version anglaise)
https://www.youtube.com/watch?v=CT3KHU7BvIs
« L’aventure de Tori » épisode 2 : transformation en super-héros (coréen)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s
« L’aventure de Tori » épisode 3 : transformation en Père Noël (coréen / version modélisation 3D)
https://www.youtube.com/watch?v=wl2RWAqOXtY
J’estime que plus de 90 % du processus a atteint l’automatisation sans intervention humaine.
Je publie ce texte pour partager les informations et les différents cas d’usage découverts au cours de cette expérimentation.
Si vous souhaitez plus d’informations, rejoignez la communauté.
[ Lien pour rejoindre la communauté (open chat KakaoTalk) ]
https://open.kakao.com/o/gE6hK9Vf
1 commentaires
J’espère que cela pourra aider ne serait-ce qu’un peu un grand nombre d’entre vous.