- Il y a très peu de personnes qui aiment vraiment les logiciels de travail
- Même les meilleurs produits sont souvent trop peu flexibles ou pas assez aboutis en contexte réel, avec une courbe d’apprentissage raide et un accès compliqué
- La génération par IA offre la possibilité de recréer totalement les workflows, jusqu’à créer des produits entièrement nouveaux dès la base
- Les workflows IA-native aident les utilisateurs à accomplir leurs tâches existantes plus efficacement
- Ces plateformes permettent de déléguer des tâches de bas niveau à un assistant IA, afin de consacrer davantage de temps à la réflexion de haut niveau
- Elles aident à débloquer de nouvelles compétences techniques et esthétiques, afin que chacun puisse devenir programmeur, producteur, designer ou musicien
- Le fossé entre créativité et technique tend alors à se réduire
- En utilisant des produits « de niveau expert mais conviviaux pour les consommateurs », basés sur des workflows IA, chacun peut devenir un "prosummer" de nouvelle génération
- (Un prosumer est une personne qui remplit à la fois le rôle de producteur et de consommateur ; le terme a été utilisé par Alvin Toffler dans The Third Wave)
À quoi pourrait ressembler un produit de prosumer GenAI-native ?
- Tous les produits de workflow GenAI-native partagent le trait commun de transformer des modèles de pointe en une UI accessible et efficace
- Les utilisateurs se soucient moins de l’infrastructure derrière le produit que de la manière dont celui-ci les aide
- Les bonds techniques rendus possibles par le GenAI sont impressionnants, mais les produits qui réussissent partent toujours d’une compréhension profonde de l’utilisateur et de ses points de friction
- Un produit réussi :
- comprend profondément les pain points de l’utilisateur
- identifie ce que l’IA peut abstraire
- identifie où se situent les points de décision nécessitant une approbation
- repère où se trouvent les points de levier ayant le plus fort impact
Principales fonctionnalités d’un produit prosumer GenAI-native
- Un outil de génération pour résoudre le problème de la page blanche
- Génère des médias à partir de prompts en langage naturel pour aider à un bon démarrage
- En exécutant un modèle propriétaire, ou en combinant plusieurs modèles
- ex : l’outil de rendu de Vizcom, le builder de sites web de Durable
- Combinaison multimodale (et multimédia)
- De nombreux projets créatifs nécessitent plus de deux types de contenu : image et texte, musique et vidéo, animation et narration vocale, etc.
- Mais à ce stade, il n’existe pas de modèle capable de générer tous ces types d’actifs
- Cela crée une opportunité pour des produits de workflow où l’utilisateur peut générer, améliorer et combiner plusieurs types de contenus en un seul endroit
- ex : l’avatar de HeyGen (qui combine ses propres avatars avec le TTS d’ElevenLabs pour générer des avatars parlant de manière réaliste)
- Éditeur intelligent permettant davantage d’itérations
- Les résultats obtenus « en une seule passe » sont quasi inexistants
- C’est encore plus vrai avec une IA à caractère aléatoire : il est rare d’obtenir exactement ce que l’on veut dès la première exécution
- Appuyer sur le bouton de régénération ou modifier le prompt est important, mais c’est un processus long et souvent décevant
- La première vague de produits de génération IA n’autorisait pratiquement aucune itération : relancer le même prompt produisait un résultat totalement différent
- On commence à voir apparaître des fonctionnalités qui permettent d’affiner une sortie existante sans repartir de zéro
- ex : les outils de variation et de zoom de Midjourney, la modification de zones précises de Pika
- Refinement intégré à la plateforme
- Un autre élément clé de l’édition intelligente est le Refinement
- Les 10 derniers pourcents de travail de polishing font souvent la différence entre produire du « bon » et produire du « remarquable »
- Pourtant, il peut être très difficile de (1) identifier ce qui doit être affiné, puis (2) l’affiner sans changer d’environnement
- Les produits de workflow IA devraient aider l’utilisateur à repérer ce qui peut être amélioré, puis à l’améliorer automatiquement
- C’est l’équivalent de la « retouche automatique » de Photos d’Apple, mais à appliquer à tout
- ex : la fonction d’upscaling de Krea, le workflow d’audiobook d’ElevenLabs
- Output remixable et convertissable
- Tous les contenus peuvent devenir un point de départ potentiel pour une autre itération
- Si vous avez déjà copié et modifié un prompt créé par quelqu’un d’autre dans Midjourney/ChatGPT, vous avez déjà participé à cela
- Les plateformes qui exploitent bien cette flexibilité peuvent bâtir des produits plus puissants et plus convaincants
- Pour les créateurs initiaux, la valeur réside dans la capacité de transformer le travail sur plusieurs médias, par exemple de transformer une vidéo en article de blog ou une documentation textuelle en vidéo d’animation pédagogique
- ex : une fonctionnalité centrale de la plateforme de publication Gamma : générer un deck, un document ou une page web à partir d’un prompt ou d’un fichier téléchargé, et convertir le format si nécessaire
- Ces produits permettent aussi d’exposer le workflow pour que d’autres puissent le reproduire
- Il peut s’agir d’une suite de prompts ou de combinaisons de modèles, ou d’un bouton « copier » permettant à des utilisateurs moins techniques d’imiter la sortie ou l’esthétique
- ex : Imagen AI, une plateforme d’édition pour photographes professionnels :
- entraîne un modèle selon le style individuel de chaque photographe afin de faciliter l’édition en lot
- les utilisateurs peuvent aussi éditer avec le style des meilleurs photographes du secteur ayant publié leur profil sur la plateforme
Comment les produits prosumer vont-ils évoluer ?
- Les outils de prosumer de nouvelle génération en sont encore à leurs débuts
- Les fonctions de génération d’actifs de base des outils existants sont enfin assez puissantes pour ajouter des workflows qui comptent, mais la plupart des produits restent centrés sur un seul type de contenu et restent très limités côté fonctionnalités
- Produits attendus
- Outils d’édition combinant différentes modalités de contenu
- La vidéo pourrait être l’exemple le plus parlant
- Aujourd’hui, pour produire un court-métrage avec l’IA, il faut d’abord générer plusieurs clips dans des produits comme Pika ou Runway, puis les déplacer vers une autre plateforme comme Capcut ou Kapwing pour l’édition ou le mixage sonore
- Et si toutes ces étapes pouvaient être réalisées dans une seule plateforme ?
- On s’attend à ce qu’une partie des produits de nouvelle génération ajoute davantage de fonctions de workflow et s’étende à d’autres types de création grâce à l’entraînement de modèles internes, l’usage de modèles open source ou des partenariats avec d’autres acteurs
- De nouveaux éditeurs IA-native autonomes pourraient aussi apparaître, permettant aux utilisateurs de « brancher » des modèles variés
- Produits exploitant d’autres modes d’interaction
- Le prompt texte n’est pas toujours la manière la plus efficace pour communiquer avec un produit IA
- Je pense que l’on devrait pouvoir travailler avec des outils de création comme on le ferait avec un partenaire humain de brainstorming, via la voix, le sketch, le partage de visuels de référence, etc.
- En particulier, la voix est attendue comme un format dans lequel l’utilisateur peut partager des idées plus sophistiquées et complexes (ou s’exprimer de façon plus éparse que possible uniquement en texte)
- Des produits comme Oasis, TalkNotes, AudioPen, qui transforment une note vocale en email, article de blog ou tweet, sont déjà en train d’émerger
- On s’attend à ce que de plus en plus de produits de workflow intègrent l’audio et la vidéo comme sources d’entrée, modifiant la manière et le moment où les utilisateurs traitent leur travail
- Produits qui traitent de manière équivalente les contenus humains et IA
- Ce serait bien d’avoir des outils permettant d’utiliser côte à côte des contenus générés par l’humain et par l’IA. Aujourd’hui, la plupart des produits se concentrent sur l’un ou l’autre.
- Par exemple, excellant pour améliorer des photos réelles mais ne faisant rien pour les images IA
- Ou pouvant générer de nouvelles vidéos, mais pas améliorer ou changer le style des clips iPhone
- Demain, la plupart des professionnels du contenu vont probablement mélanger contenus IA et contenus humains
- Les produits qu’ils utiliseront devront accepter les deux types de contenus et permettre de les combiner plus facilement
- L’outil d’édition de Runway montre bien cela
- importer des clips et des images de leurs modèles génératifs propres, puis télécharger des assets réels pour les utiliser dans une même timeline
- puis appliquer aux deux types de contenu les « outils magiques » de la société, tels que l’inpainting et le green screen
- Les produits de workflow de contenu que nous avons examinés ici ne constituent qu’un des éléments importants de l’avenir des logiciels prosumer
- Nous allons prochainement examiner plus en détail le deuxième élément clé, les outils de productivité, et revisiter les outils de productivité qui, selon nous, peuvent connaître la même renaissance à l’ère de l’IA
2 commentaires
Je pense que la proposition de combinaison de workflows comme différenciant des produits AI prosumer a, à mon avis, la même nature et les mêmes limites que les plateformes low-code existantes.
Tous les travaux confiés aux professionnels n’ont pas une complexité suffisamment faible pour être entièrement maîtrisés en low-code ; souvent, la complexité même de la tâche est telle qu’il peut être préférable de la contrôler avec des compétences de programmation spécialisées plutôt qu’avec une plateforme low-code. Si l’on compare la programmation à la composition de circuits électroniques, les solutions low-code correspondent au breadboard. Tout comme une breadboard permet d’assembler et de bricoler divers éléments pour fabriquer un prototype de circuit fonctionnel, elle ne permet pas de réaliser un circuit intégré fiable qui exige une certaine robustesse.
Si on applique cela à la production de contenu, on peut craindre qu’il ne soit pas possible de contrôler la précision ni le soin apporté au résultat à cause des limites des outils de génération IA. C’est un peu comme avec les images IA actuelles, qui ne parviennent pas toujours à dessiner correctement des doigts. La courbe d’apprentissage va probablement baisser, mais il est peu probable que cela soit si spectaculaire.