- Génération à la demande en temps réel : chaque page est produite sous forme d’image, et lorsqu’on clique sur un objet dans l’image, un nouvel écran est généré pour l’explorer plus en profondeur
- L’écran ne contient ni HTML ni champs de saisie et fonctionne comme une interface centrée sur les pixels, où même le texte est directement rendu en pixels par le modèle d’image
- Les informations des pages sont produites en combinant agentic web search et les connaissances générales du monde du modèle d’image, avec un niveau de précision présenté comme comparable à ce qu’on peut attendre de ChatGPT, Gemini ou Claude
- La fonctionnalité live video stream anime les images d’exploration et rend les transitions plus fluides, mais elle est actuellement cachée derrière un bouton, car son comportement reste difficile à prédire et elle consomme beaucoup de ressources
- Pour l’instant, cela ressemble davantage à un outil expérimental d’exploration et d’apprentissage, mais à mesure que la précision et les performances des modèles d’image et de vidéo progresseront, l’environnement pourrait s’étendre pour inclure davantage de données réelles, plus d’interactions, l’exécution de tâches et même le stockage de données
Vue d’ensemble
- Il s’agit d’un navigateur visuel infini qui fonctionne par génération à la demande en temps réel et compose chaque page visitée sous forme d’image
- L’écran ne contient ni HTML, ni code, ni liens spécifiques, ni champs de saisie ; en cliquant sur un objet dans l’image, une nouvelle image est générée pour explorer cet objet plus en détail
- Le web y est repensé non comme un ensemble de documents et d’éléments d’interface, mais comme une interface centrée sur les pixels générée à l’écran
Fonctionnement et axes d’évolution
- Tout le texte affiché à l’écran est lui aussi directement rendu en pixels par le modèle d’image, sans superposer une couche de texte séparée sur l’image
- Il peut donc arriver que le texte soit incomplet ou mal positionné, ce qui pourrait s’améliorer à mesure que le modèle progresse
- Les informations présentes dans l’image sont produites en combinant agentic web search et les connaissances générales propres au modèle d’image
- Elles peuvent parfois être inexactes, mais sont présentées comme un point de départ utile, généralement ancré dans des données réelles en ligne
- Il est indiqué que la précision factuelle est globalement comparable à ce qu’on peut attendre en utilisant ChatGPT, Gemini ou Claude
- L’objectif est une expérience informatique qui transmet l’information par une expression visuelle riche, plutôt que par des écrans composés surtout de texte et de rectangles colorés
- Le projet part de l’idée qu’il est difficile de transmettre des idées complexes et nuancées avec seulement du code et des règles fixes, et met donc l’accent sur le choix, selon le contexte, du mode d’expression le plus efficace : un mot, une illustration, un rendu réaliste, etc.
- Le live video stream est une fonction expérimentale qui transforme des images statiques en un flux vidéo plus continu, anime chaque image d’exploration et rend les transitions plus fluides entre elles
- Son comportement actuel reste assez difficile à prévoir et il consomme beaucoup de ressources, d’où sa présence derrière un bouton d’activation
- Il est indiqué qu’à ce stade, le système combine un modèle de génération vidéo custom hautement optimisé avec deux systèmes de génération d’images, avec l’objectif de les unifier à terme en un seul système
- Le produit est aujourd’hui conçu comme un outil expérimental d’exploration et d’apprentissage, mais à mesure que la précision et les performances des modèles d’image et de vidéo augmenteront, il pourrait évoluer vers des pages intégrant davantage de données réelles, capables d’interagir, d’exécuter directement des tâches et de stocker leurs propres données
- Un exemple donné est le passage d’un usage où l’on recherche son prochain voyage puis réserve ailleurs, à un usage où tout le processus se ferait directement dans Flipbook
- Il est également indiqué que des tâches nécessitant aujourd’hui des applications et sites web séparés pourraient à l’avenir être davantage réalisées dans un environnement qui ressemble à Flipbook et fonctionne comme lui
- La lecture ne fonctionne pas dans les navigateurs qui ne prennent pas en charge la vidéo embarquée
- La démonstration utilise une vidéo pré-générée et a été montée pour des raisons de vitesse
3 commentaires
Rien qu’en voyant la vidéo de présentation, ça donne envie d’essayer… mais on me dit d’attendre 3 heures. Il doit y avoir énormément de monde dessus.
https://x.com/DongwooKim/status/2047499005580738657
J’ai fait tourner la vue de Namsan à Séoul, et c’était vraiment charmant et très réussi.
Réactions sur Hacker News
C’est vraiment stupéfiant. J’ai mis en ligne un schéma de système hydroponique trouvé quelque part,
et il a généré séparément des schémas de haute qualité pour les tuyaux, l’alimentation en nutriments, le câblage électrique et d’autres détails.
Ce n’était pas totalement exact, mais j’aime beaucoup le concept lui-même.
Je lui ai demandé de faire un schéma des spécifications de couple de la suspension d’une voiture, et comme c’est un sujet que je connais bien, j’ai vérifié :
presque tout était correct, et même les valeurs de couple étaient justes.
On pouvait cliquer sur chaque pièce pour zoomer davantage et voir des spécifications supplémentaires.
C’était l’une des démos les plus impressionnantes que j’aie vues depuis longtemps, et ça pourrait servir de manuel de réparation Haynes vivant.
Il a seulement compris qu’il fallait des panneaux solaires, un contrôleur de charge, une batterie et des charges, mais le câblage n’avait aucun sens.
Dès qu’on entre dans les détails comme les réglages du contrôleur de charge, tout s’effondre.
Impossible de l’utiliser comme source d’information fiable dans le monde réel, mais c’est amusant à regarder et l’implémentation est impressionnante.
Le résultat, c’était juste un abri banal avec une porte recyclée collée dessus.
On ne voyait même pas où les vélos étaient censés aller, et la structure proposée ne ressemblait pas du tout à ce que serait le produit fini.
Comme avec les autres démos d’IA, l’apparence est convaincante, mais le système ne comprend fondamentalement pas ce qu’il fait.
Je lui ai demandé d’étiqueter les composants du compartiment moteur d’un Jeep Wrangler JK, et au début il a produit un schéma plausible.
Mais le réservoir de liquide de frein était du mauvais côté, à sa place il avait mis l’étiquette du vase d’expansion du liquide de refroidissement, et le vrai vase d’expansion était bien dessiné mais sans étiquette.
La batterie était aussi mal placée, la partie supérieure de la calandre avant était indiquée comme étant le bouchon du filtre à huile, et l’emplacement du bouchon de remplissage d’huile était également faux.
La moitié de la batterie était étiquetée comme boîtier à fusibles, alors que le vrai boîtier à fusibles était correctement dessiné de l’autre côté mais sans étiquette.
Le réservoir de lave-glace apparaissait lui aussi en deux exemplaires collés l’un à l’autre.
En cliquant sur le réservoir de liquide de refroidissement mal étiqueté, on arrivait sur une autre page où cette fois seule la position était correcte, mais avec un réservoir à l’apparence totalement différente, et le bouchon du radiateur posé au-dessus du réservoir.
En réalité, il devrait être sur le radiateur.
Toute personne qui connaît le sujet peut relever des erreurs partout, mais pour quelqu’un qui ne sait pas, ça paraît assez crédible — c’est exactement l’histoire des LLM.
Extérieurement, ça ressemblait vaguement à un MacPro, mais tous les éléments visuels étaient faux.
Le texte aussi ne semblait correct qu’au premier coup d’œil, et presque tout ce qu’on obtenait en cliquant ensuite était faux.
C’était joli à voir, mais ça faisait longtemps que je n’avais pas vu une IA se tromper à ce point, je dirais depuis 2023.
"your mom", et il m’a généré un timeline socio-historique de la maternité avec un placenta superposé dessus.J’approuve.
C’est un beau projet, mais je me demande toujours d’où viennent les ressources et l’argent nécessaires pour construire ce genre de chose et l’exploiter comme service public.
J’imagine qu’ils ont leurs propres GPU, ou qu’ils utilisent les API GPT/Gemini avec de l’inférence subventionnée en entreprise,
mais en tant que personne habituée à vivre de façon frugale, j’ai toujours du mal à me représenter ça.
Je ne m’attendais absolument pas à ce que ça explose à ce point.
Certains dépensent dans les jeux, la peinture ou le travail du bois,
et d’autres utilisent le budget loisir qui reste d’un salaire niveau FAANG pour un projet artistique GenAI, au lieu de le mettre dans l’alcool ou le sport.
Ce n’est peut-être pas votre truc, mais tout le monde a au moins une dépense dans son budget que d’autres trouveraient luxueuse.
Ici, on appelle ça la mentalité d’immigré, sans intention péjorative, plutôt comme la frugalité propre à quelqu’un qui a dû recommencer sa vie à zéro.
En plus c’était extrêmement lent, donc j’ai fini par ne pas attendre.
Ce n’est pas un reproche envers la personne qui l’a créé, c’était juste vraiment trop lent.
Au début, je croyais que ce n’était pas un simple schéma mais que ça générait réellement une page web en temps réel.
J’ai toujours trouvé fascinant l’avenir où des applications seraient créées à la volée selon les besoins de l’utilisateur,
et je me demande s’il existe déjà des exemples concrets de ce genre.
J’ai obtenu un Mac Neo, avec 2 puces M4 quantum, une solid state battery et un graphene connector.
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
J’ai eu Sneed's Feed and Seed. C’était aussi marqué Formerly Chuck's.
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
S’il avait réussi ça correctement, j’aurais vraiment été impressionné.
Ça ne semble pas faire partie de ses données d’entraînement.
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
L’idée est intéressante, mais en ce moment presque tout échoue.
C’est probablement à cause du hug of death de HN.
J’obtiens
Gemini generateContent request failedavec 429 RESOURCE_EXHAUSTED,et un message disant que le quota actuel a été dépassé, avec invitation à vérifier le forfait et les informations de facturation.
Un lien vers les détails des limites actuelles est aussi affiché.
La démo de la page principale affichait Paris Travel Overview / Visiting Notre Dame,
donc j’ai testé avec quelques villes et lieux que je connais pour y être réellement allé.
Les points d’intérêt eux-mêmes étaient parfois corrects, mais leurs relations spatiales les uns par rapport aux autres étaient complètement aberrantes.
Ça ne ressemblait absolument pas à la réalité.
Ça a l’air d’être un produit assez coûteux pour subir un hug of death de HN.
Les vidéos d’exemple postées sur Twitter étaient vraiment superbes.
Mais comme ça ne fonctionne pas très bien pour l’instant, je vais attendre que le trafic retombe et réessayer dans quelques jours.