L’avenir des prosumers : l’essor des workflows « AI native »

xguru · 2024-02-19T11:05:01+09:00

Il y a très peu de personnes qui aiment vraiment les logiciels de travail Même les meilleurs produits sont souvent trop peu flexibles ou pas assez aboutis en contexte réel, avec une courbe d’apprentissage raide et un accès compliqué La génération par IA offre la possibilité de recréer totalement les workflows, jusqu’à créer des produits entièrement nouveaux dès la base Les workflows IA-native aident les utilisateurs à accomplir leurs tâches existantes plus efficacement Ces plateformes permettent de déléguer des tâches de bas niveau à un assistant IA, afin de consacrer davantage de temps à la réflexion de haut niveau Elles aident à débloquer de nouvelles compétences techniques et esthétiques, afin que chacun puisse devenir programmeur, producteur, designer ou musicien Le fossé entre créativité et technique tend alors à se réduire En utilisant des produits « de niveau expert mais conviviaux pour les consommateurs », basés sur des workflows IA, chacun peut devenir un "prosummer" de nouvelle génération (Un prosumer est une personne qui remplit à la fois le rôle de producteur et de consommateur ; le terme a été utilisé par Alvin Toffler dans The Third Wave) À quoi pourrait ressembler un produit de prosumer GenAI-native ? Tous les produits de workflow GenAI-native partagent le trait commun de transformer des modèles de pointe en une UI accessible et efficace Les utilisateurs se soucient moins de l’infrastructure derrière le produit que de la manière dont celui-ci les aide Les bonds techniques rendus possibles par le GenAI sont impressionnants, mais les produits qui réussissent partent toujours d’une compréhension profonde de l’utilisateur et de ses points de friction Un produit réussi : comprend profondément les pain points de l’utilisateur identifie ce que l’IA peut abstraire identifie où se situent les points de décision nécessitant une approbation repère où se trouvent les points de levier ayant le plus fort impact Principales fonctionnalités d’un produit prosumer GenAI-native Un outil de génération pour résoudre le problème de la page blanche Génère des médias à partir de prompts en langage naturel pour aider à un bon démarrage En exécutant un modèle propriétaire, ou en combinant plusieurs modèles ex : l’outil de rendu de Vizcom, le builder de sites web de Durable Combinaison multimodale (et multimédia) De nombreux projets créatifs nécessitent plus de deux types de contenu : image et texte, musique et vidéo, animation et narration vocale, etc. Mais à ce stade, il n’existe pas de modèle capable de générer tous ces types d’actifs Cela crée une opportunité pour des produits de workflow où l’utilisateur peut générer, améliorer et combiner plusieurs types de contenus en un seul endroit ex : l’avatar de HeyGen (qui combine ses propres avatars avec le TTS d’ElevenLabs pour générer des avatars parlant de manière réaliste) Éditeur intelligent permettant davantage d’itérations Les résultats obtenus « en une seule passe » sont quasi inexistants C’est encore plus vrai avec une IA à caractère aléatoire : il est rare d’obtenir exactement ce que l’on veut dès la première exécution Appuyer sur le bouton de régénération ou modifier le prompt est important, mais c’est un processus long et souvent décevant La première vague de produits de génération IA n’autorisait pratiquement aucune itération : relancer le même prompt produisait un résultat totalement différent On commence à voir apparaître des fonctionnalités qui permettent d’affiner une sortie existante sans repartir de zéro ex : les outils de variation et de zoom de Midjourney, la modification de zones précises de Pika Refinement intégré à la plateforme Un autre élément clé de l’édition intelligente est le Refinement Les 10 derniers pourcents de travail de polishing font souvent la différence entre produire du « bon » et produire du « remarquable » Pourtant, il peut être très difficile de (1) identifier ce qui doit être affiné, puis (2) l’affiner sans changer d’environnement Les produits de workflow IA devraient aider l’utilisateur à repérer ce qui peut être amélioré, puis à l’améliorer automatiquement C’est l’équivalent de la « retouche automatique » de Photos d’Apple, mais à appliquer à tout ex : la fonction d’upscaling de Krea, le workflow d’audiobook d’ElevenLabs Output remixable et convertissable Tous les contenus peuvent devenir un point de départ potentiel pour une autre itération Si vous avez déjà copié et modifié un prompt créé par quelqu’un d’autre dans Midjourney/ChatGPT, vous avez déjà participé à cela Les plateformes qui exploitent bien cette flexibilité peuvent bâtir des produits plus puissants et plus convaincants Pour les créateurs initiaux, la valeur réside dans la capacité de transformer le travail sur plusieurs médias, par exemple de transformer une vidéo en article de blog ou une documentation textuelle en vidéo d’animation pédagogique ex : une fonctionnalité centrale de la plateforme de publication Gamma : générer un deck, un document ou une page web à partir d’un prompt ou d’un fichier téléchargé, et convertir le format si nécessaire Ces produits permettent aussi d’exposer le workflow pour que d’autres puissent le reproduire Il peut s’agir d’une suite de prompts ou de combinaisons de modèles, ou d’un bouton « copier » permettant à des utilisateurs moins techniques d’imiter la sortie ou l’esthétique ex : Imagen AI, une plateforme d’édition pour photographes professionnels : entraîne un modèle selon le style individuel de chaque photographe afin de faciliter l’édition en lot les utilisateurs peuvent aussi éditer avec le style des meilleurs photographes du secteur ayant publié leur profil sur la plateforme Comment les produits prosumer vont-ils évoluer ? Les outils de prosumer de nouvelle génération en sont encore à leurs débuts Les fonctions de génération d’actifs de base des outils existants sont enfin assez puissantes pour ajouter des workflows qui comptent, mais la plupart des produits restent centrés sur un seul type de contenu et restent très limités côté fonctionnalités Produits attendus Outils d’édition combinant différentes modalités de contenu La vidéo pourrait être l’exemple le plus parlant Aujourd’hui, pour produire un court-métrage avec l’IA, il faut d’abord générer plusieurs clips dans des produits comme Pika ou Runway, puis les déplacer vers une autre plateforme comme Capcut ou Kapwing pour l’édition ou le mixage sonore Et si toutes ces étapes pouvaient être réalisées dans une seule plateforme ? On s’attend à ce qu’une partie des produits de nouvelle génération ajoute davantage de fonctions de workflow et s’étende à d’autres types de création grâce à l’entraînement de modèles internes, l’usage de modèles open source ou des partenariats avec d’autres acteurs De nouveaux éditeurs IA-native autonomes pourraient aussi apparaître, permettant aux utilisateurs de « brancher » des modèles variés Produits exploitant d’autres modes d’interaction Le prompt texte n’est pas toujours la manière la plus efficace pour communiquer avec un produit IA Je pense que l’on devrait pouvoir travailler avec des outils de création comme on le ferait avec un partenaire humain de brainstorming, via la voix, le sketch, le partage de visuels de référence, etc. En particulier, la voix est attendue comme un format dans lequel l’utilisateur peut partager des idées plus sophistiquées et complexes (ou s’exprimer de façon plus éparse que possible uniquement en texte) Des produits comme Oasis, TalkNotes, AudioPen, qui transforment une note vocale en email, article de blog ou tweet, sont déjà en train d’émerger On s’attend à ce que de plus en plus de produits de workflow intègrent l’audio et la vidéo comme sources d’entrée, modifiant la manière et le moment où les utilisateurs traitent leur travail Produits qui traitent de manière équivalente les contenus humains et IA Ce serait bien d’avoir des outils permettant d’utiliser côte à côte des contenus générés par l’humain et par l’IA. Aujourd’hui, la plupart des produits se concentrent sur l’un ou l’autre. Par exemple, excellant pour améliorer des photos réelles mais ne faisant rien pour les images IA Ou pouvant générer de nouvelles vidéos, mais pas améliorer ou changer le style des clips iPhone Demain, la plupart des professionnels du contenu vont probablement mélanger contenus IA et contenus humains Les produits qu’ils utiliseront devront accepter les deux types de contenus et permettre de les combiner plus facilement L’outil d’édition de Runway montre bien cela importer des clips et des images de leurs modèles génératifs propres, puis télécharger des assets réels pour les utiliser dans une même timeline puis appliquer aux deux types de contenu les « outils magiques » de la société, tels que l’inpainting et le green screen Les produits de workflow de contenu que nous avons examinés ici ne constituent qu’un des éléments importants de l’avenir des logiciels prosumer Nous allons prochainement examiner plus en détail le deuxième élément clé, les outils de productivité, et revisiter les outils de productivité qui, selon nous, peuvent connaître la même renaissance à l’ère de l’IA

(a16z.com)

9 points par xguru 2024-02-19 | 2 commentaires | Partager sur WhatsApp

Il y a très peu de personnes qui aiment vraiment les logiciels de travail
Même les meilleurs produits sont souvent trop peu flexibles ou pas assez aboutis en contexte réel, avec une courbe d’apprentissage raide et un accès compliqué
La génération par IA offre la possibilité de recréer totalement les workflows, jusqu’à créer des produits entièrement nouveaux dès la base
Les workflows IA-native aident les utilisateurs à accomplir leurs tâches existantes plus efficacement
Ces plateformes permettent de déléguer des tâches de bas niveau à un assistant IA, afin de consacrer davantage de temps à la réflexion de haut niveau
Elles aident à débloquer de nouvelles compétences techniques et esthétiques, afin que chacun puisse devenir programmeur, producteur, designer ou musicien
- Le fossé entre créativité et technique tend alors à se réduire
- En utilisant des produits « de niveau expert mais conviviaux pour les consommateurs », basés sur des workflows IA, chacun peut devenir un "prosummer" de nouvelle génération
- (Un prosumer est une personne qui remplit à la fois le rôle de producteur et de consommateur ; le terme a été utilisé par Alvin Toffler dans The Third Wave)

À quoi pourrait ressembler un produit de prosumer GenAI-native ?

Tous les produits de workflow GenAI-native partagent le trait commun de transformer des modèles de pointe en une UI accessible et efficace
Les utilisateurs se soucient moins de l’infrastructure derrière le produit que de la manière dont celui-ci les aide
Les bonds techniques rendus possibles par le GenAI sont impressionnants, mais les produits qui réussissent partent toujours d’une compréhension profonde de l’utilisateur et de ses points de friction
Un produit réussi :
- comprend profondément les pain points de l’utilisateur
- identifie ce que l’IA peut abstraire
- identifie où se situent les points de décision nécessitant une approbation
- repère où se trouvent les points de levier ayant le plus fort impact

Principales fonctionnalités d’un produit prosumer GenAI-native

Un outil de génération pour résoudre le problème de la page blanche
- Génère des médias à partir de prompts en langage naturel pour aider à un bon démarrage
- En exécutant un modèle propriétaire, ou en combinant plusieurs modèles
- ex : l’outil de rendu de Vizcom, le builder de sites web de Durable
Combinaison multimodale (et multimédia)
- De nombreux projets créatifs nécessitent plus de deux types de contenu : image et texte, musique et vidéo, animation et narration vocale, etc.
- Mais à ce stade, il n’existe pas de modèle capable de générer tous ces types d’actifs
- Cela crée une opportunité pour des produits de workflow où l’utilisateur peut générer, améliorer et combiner plusieurs types de contenus en un seul endroit
- ex : l’avatar de HeyGen (qui combine ses propres avatars avec le TTS d’ElevenLabs pour générer des avatars parlant de manière réaliste)
Éditeur intelligent permettant davantage d’itérations
- Les résultats obtenus « en une seule passe » sont quasi inexistants
- C’est encore plus vrai avec une IA à caractère aléatoire : il est rare d’obtenir exactement ce que l’on veut dès la première exécution
- Appuyer sur le bouton de régénération ou modifier le prompt est important, mais c’est un processus long et souvent décevant
- La première vague de produits de génération IA n’autorisait pratiquement aucune itération : relancer le même prompt produisait un résultat totalement différent
- On commence à voir apparaître des fonctionnalités qui permettent d’affiner une sortie existante sans repartir de zéro
- ex : les outils de variation et de zoom de Midjourney, la modification de zones précises de Pika
Refinement intégré à la plateforme
- Un autre élément clé de l’édition intelligente est le Refinement
- Les 10 derniers pourcents de travail de polishing font souvent la différence entre produire du « bon » et produire du « remarquable »
- Pourtant, il peut être très difficile de (1) identifier ce qui doit être affiné, puis (2) l’affiner sans changer d’environnement
- Les produits de workflow IA devraient aider l’utilisateur à repérer ce qui peut être amélioré, puis à l’améliorer automatiquement
- C’est l’équivalent de la « retouche automatique » de Photos d’Apple, mais à appliquer à tout
- ex : la fonction d’upscaling de Krea, le workflow d’audiobook d’ElevenLabs
Output remixable et convertissable
- Tous les contenus peuvent devenir un point de départ potentiel pour une autre itération
- Si vous avez déjà copié et modifié un prompt créé par quelqu’un d’autre dans Midjourney/ChatGPT, vous avez déjà participé à cela
- Les plateformes qui exploitent bien cette flexibilité peuvent bâtir des produits plus puissants et plus convaincants
- Pour les créateurs initiaux, la valeur réside dans la capacité de transformer le travail sur plusieurs médias, par exemple de transformer une vidéo en article de blog ou une documentation textuelle en vidéo d’animation pédagogique
- ex : une fonctionnalité centrale de la plateforme de publication Gamma : générer un deck, un document ou une page web à partir d’un prompt ou d’un fichier téléchargé, et convertir le format si nécessaire
- Ces produits permettent aussi d’exposer le workflow pour que d’autres puissent le reproduire
  - Il peut s’agir d’une suite de prompts ou de combinaisons de modèles, ou d’un bouton « copier » permettant à des utilisateurs moins techniques d’imiter la sortie ou l’esthétique
  - ex : Imagen AI, une plateforme d’édition pour photographes professionnels :
    - entraîne un modèle selon le style individuel de chaque photographe afin de faciliter l’édition en lot
    - les utilisateurs peuvent aussi éditer avec le style des meilleurs photographes du secteur ayant publié leur profil sur la plateforme

Comment les produits prosumer vont-ils évoluer ?

Les outils de prosumer de nouvelle génération en sont encore à leurs débuts
Les fonctions de génération d’actifs de base des outils existants sont enfin assez puissantes pour ajouter des workflows qui comptent, mais la plupart des produits restent centrés sur un seul type de contenu et restent très limités côté fonctionnalités
Produits attendus
- Outils d’édition combinant différentes modalités de contenu
  - La vidéo pourrait être l’exemple le plus parlant
  - Aujourd’hui, pour produire un court-métrage avec l’IA, il faut d’abord générer plusieurs clips dans des produits comme Pika ou Runway, puis les déplacer vers une autre plateforme comme Capcut ou Kapwing pour l’édition ou le mixage sonore
  - Et si toutes ces étapes pouvaient être réalisées dans une seule plateforme ?
  - On s’attend à ce qu’une partie des produits de nouvelle génération ajoute davantage de fonctions de workflow et s’étende à d’autres types de création grâce à l’entraînement de modèles internes, l’usage de modèles open source ou des partenariats avec d’autres acteurs
  - De nouveaux éditeurs IA-native autonomes pourraient aussi apparaître, permettant aux utilisateurs de « brancher » des modèles variés
- Produits exploitant d’autres modes d’interaction
  - Le prompt texte n’est pas toujours la manière la plus efficace pour communiquer avec un produit IA
  - Je pense que l’on devrait pouvoir travailler avec des outils de création comme on le ferait avec un partenaire humain de brainstorming, via la voix, le sketch, le partage de visuels de référence, etc.
  - En particulier, la voix est attendue comme un format dans lequel l’utilisateur peut partager des idées plus sophistiquées et complexes (ou s’exprimer de façon plus éparse que possible uniquement en texte)
  - Des produits comme Oasis, TalkNotes, AudioPen, qui transforment une note vocale en email, article de blog ou tweet, sont déjà en train d’émerger
  - On s’attend à ce que de plus en plus de produits de workflow intègrent l’audio et la vidéo comme sources d’entrée, modifiant la manière et le moment où les utilisateurs traitent leur travail
- Produits qui traitent de manière équivalente les contenus humains et IA
  - Ce serait bien d’avoir des outils permettant d’utiliser côte à côte des contenus générés par l’humain et par l’IA. Aujourd’hui, la plupart des produits se concentrent sur l’un ou l’autre.
  - Par exemple, excellant pour améliorer des photos réelles mais ne faisant rien pour les images IA
  - Ou pouvant générer de nouvelles vidéos, mais pas améliorer ou changer le style des clips iPhone
  - Demain, la plupart des professionnels du contenu vont probablement mélanger contenus IA et contenus humains
  - Les produits qu’ils utiliseront devront accepter les deux types de contenus et permettre de les combiner plus facilement
  - L’outil d’édition de Runway montre bien cela
    - importer des clips et des images de leurs modèles génératifs propres, puis télécharger des assets réels pour les utiliser dans une même timeline
    - puis appliquer aux deux types de contenu les « outils magiques » de la société, tels que l’inpainting et le green screen
Les produits de workflow de contenu que nous avons examinés ici ne constituent qu’un des éléments importants de l’avenir des logiciels prosumer
Nous allons prochainement examiner plus en détail le deuxième élément clé, les outils de productivité, et revisiter les outils de productivité qui, selon nous, peuvent connaître la même renaissance à l’ère de l’IA

2 commentaires

savvykang 2024-02-19

Je pense que la proposition de combinaison de workflows comme différenciant des produits AI prosumer a, à mon avis, la même nature et les mêmes limites que les plateformes low-code existantes.

Tous les travaux confiés aux professionnels n’ont pas une complexité suffisamment faible pour être entièrement maîtrisés en low-code ; souvent, la complexité même de la tâche est telle qu’il peut être préférable de la contrôler avec des compétences de programmation spécialisées plutôt qu’avec une plateforme low-code. Si l’on compare la programmation à la composition de circuits électroniques, les solutions low-code correspondent au breadboard. Tout comme une breadboard permet d’assembler et de bricoler divers éléments pour fabriquer un prototype de circuit fonctionnel, elle ne permet pas de réaliser un circuit intégré fiable qui exige une certaine robustesse.