- Génération à la demande en temps réel : chaque page est produite sous forme d’image, et lorsqu’on clique sur un objet dans l’image, un nouvel écran est généré pour l’explorer plus en profondeur
- L’écran ne contient ni HTML ni champs de saisie et fonctionne comme une interface centrée sur les pixels, où même le texte est directement rendu en pixels par le modèle d’image
- Les informations des pages sont produites en combinant agentic web search et les connaissances générales du monde du modèle d’image, avec un niveau de précision présenté comme comparable à ce qu’on peut attendre de ChatGPT, Gemini ou Claude
- La fonctionnalité live video stream anime les images d’exploration et rend les transitions plus fluides, mais elle est actuellement cachée derrière un bouton, car son comportement reste difficile à prédire et elle consomme beaucoup de ressources
- Pour l’instant, cela ressemble davantage à un outil expérimental d’exploration et d’apprentissage, mais à mesure que la précision et les performances des modèles d’image et de vidéo progresseront, l’environnement pourrait s’étendre pour inclure davantage de données réelles, plus d’interactions, l’exécution de tâches et même le stockage de données
Vue d’ensemble
- Il s’agit d’un navigateur visuel infini qui fonctionne par génération à la demande en temps réel et compose chaque page visitée sous forme d’image
- L’écran ne contient ni HTML, ni code, ni liens spécifiques, ni champs de saisie ; en cliquant sur un objet dans l’image, une nouvelle image est générée pour explorer cet objet plus en détail
- Le web y est repensé non comme un ensemble de documents et d’éléments d’interface, mais comme une interface centrée sur les pixels générée à l’écran
Fonctionnement et axes d’évolution
- Tout le texte affiché à l’écran est lui aussi directement rendu en pixels par le modèle d’image, sans superposer une couche de texte séparée sur l’image
- Il peut donc arriver que le texte soit incomplet ou mal positionné, ce qui pourrait s’améliorer à mesure que le modèle progresse
- Les informations présentes dans l’image sont produites en combinant agentic web search et les connaissances générales propres au modèle d’image
- Elles peuvent parfois être inexactes, mais sont présentées comme un point de départ utile, généralement ancré dans des données réelles en ligne
- Il est indiqué que la précision factuelle est globalement comparable à ce qu’on peut attendre en utilisant ChatGPT, Gemini ou Claude
- L’objectif est une expérience informatique qui transmet l’information par une expression visuelle riche, plutôt que par des écrans composés surtout de texte et de rectangles colorés
- Le projet part de l’idée qu’il est difficile de transmettre des idées complexes et nuancées avec seulement du code et des règles fixes, et met donc l’accent sur le choix, selon le contexte, du mode d’expression le plus efficace : un mot, une illustration, un rendu réaliste, etc.
- Le live video stream est une fonction expérimentale qui transforme des images statiques en un flux vidéo plus continu, anime chaque image d’exploration et rend les transitions plus fluides entre elles
- Son comportement actuel reste assez difficile à prévoir et il consomme beaucoup de ressources, d’où sa présence derrière un bouton d’activation
- Il est indiqué qu’à ce stade, le système combine un modèle de génération vidéo custom hautement optimisé avec deux systèmes de génération d’images, avec l’objectif de les unifier à terme en un seul système
- Le produit est aujourd’hui conçu comme un outil expérimental d’exploration et d’apprentissage, mais à mesure que la précision et les performances des modèles d’image et de vidéo augmenteront, il pourrait évoluer vers des pages intégrant davantage de données réelles, capables d’interagir, d’exécuter directement des tâches et de stocker leurs propres données
- Un exemple donné est le passage d’un usage où l’on recherche son prochain voyage puis réserve ailleurs, à un usage où tout le processus se ferait directement dans Flipbook
- Il est également indiqué que des tâches nécessitant aujourd’hui des applications et sites web séparés pourraient à l’avenir être davantage réalisées dans un environnement qui ressemble à Flipbook et fonctionne comme lui
- La lecture ne fonctionne pas dans les navigateurs qui ne prennent pas en charge la vidéo embarquée
- La démonstration utilise une vidéo pré-générée et a été montée pour des raisons de vitesse
Aucun commentaire pour le moment.