6 points par GN⁺ 2025-06-21 | 1 commentaires | Partager sur WhatsApp
  • Un navigateur open source doté de fonctionnalités d’agent basées sur l’IA
  • Il donne la priorité à la vie privée des utilisateurs et exécute les modèles d’IA en local, offrant un avantage en matière de protection des données
  • Parmi ses principaux atouts, il met en avant la compatibilité avec les extensions Chrome et une politique open source transparente
  • Face à des alternatives existantes comme Arc, Dia, Perplexity Comet, il se distingue par le traitement local et le contrôle des données par l’utilisateur
  • Il vise une extension continue de ses fonctionnalités et une évolution portée par la communauté, avec plusieurs modes de contribution possibles

Qu’est-ce que Nxtscape ?

  • Nxtscape est un navigateur agent open source qui exécute ses fonctions d’IA en environnement local
  • C’est une alternative à des navigateurs comme Arc, Dia, Perplexity Comet, particulièrement adaptée à ceux qui veulent préserver leur vie privée et garder le contrôle de leurs données
  • Les utilisateurs peuvent employer leur propre clé API ou connecter des modèles locaux comme Ollama, afin que les informations telles que l’historique de navigation ne quittent pas leur machine

Caractéristiques principales

  • Compatibilité totale avec les extensions Chrome, pour conserver un environnement déjà familier
  • L’agent IA fonctionne directement dans le navigateur, sans passer par le cloud
  • L’utilisateur peut saisir directement sa clé API ou choisir l’intégration de modèles locaux, pour une forte protection des données
  • Le développement open source et piloté par la communauté garantit la transparence du code
  • D’autres fonctions sont prévues, comme un MCP Store et un blocage publicitaire basé sur l’IA

Démo et exemples d’usage

  • Des scénarios d’automatisation exploitant un agent IA sont proposés
  • Une fonction de chat IA local est intégrée pour fournir une assistance conversationnelle
  • Le projet montre aussi diverses possibilités d’automatisation du travail en lien avec des outils de productivité

Contexte de développement

  • Le projet part du constat que la technologie des navigateurs stagne depuis longtemps
  • Son objectif est de construire un environnement fondé sur des agents IA capable d’améliorer radicalement la productivité des développeurs
  • En automatisant des tâches répétitives simples, par exemple « commander Tide Pods depuis l’historique des commandes Amazon », l’idée est que l’utilisateur reçoive l’aide du navigateur au lieu de devoir « lutter » contre lui
  • Le projet affirme comme principe fort que les agents IA doivent fonctionner de manière sécurisée en local

Comparaison avec les principaux navigateurs

  • Chrome : bien qu’il repose sur le Chromium open source, il a peu introduit d’innovations majeures en matière d’IA, d’automatisation ou de MCP (Multi Capability Plug-in) au cours des dix dernières années
  • Brave : il a élargi son positionnement avec la cryptomonnaie, la recherche et le VPN, tandis que Nxtscape se concentre sur une approche centrée sur l’IA
  • Arc/Dia : populaires, mais propriétaires, et sans alternative en cas d’arrêt du service. Nxtscape est entièrement open source
  • Perplexity Comet : issu d’une entreprise de recherche/publicité, avec la question de la propriété des données comme l’historique du navigateur. Nxtscape conserve tous les historiques de l’utilisateur strictement en local

Participation de la communauté et contributions

  • Il est possible de contribuer de différentes façons, par exemple via des rapports de bugs, des suggestions de fonctionnalités, la participation sur Discord ou le suivi sur Twitter

Licence et références techniques

  • Le code source est publié sous licence AGPL-3.0
  • Le projet s’inspire de projets open source comme Chromium, browser-use, Stagehand et Nanobrowser

1 commentaires

 
GN⁺ 2025-06-21
Avis Hacker News
  • J’ai l’impression qu’une bonne partie des commentaires jusqu’ici se concentrent sur les détails plutôt que sur la vision d’ensemble. Personnellement, j’imagine énormément de valeur dans un navigateur connecté à un LLM local, qui enregistre dans une base locale tout ce qu’il voit avec horodatage, analyse/résume automatiquement ce avec quoi j’interagis, peut être scripté comme Puppeteer et prend en charge l’automatisation pilotée par prompts de code. Comme assistant numérique personnel, il pourrait m’aider à retrouver facilement des infos oubliées ou nécessaires, filtrer activement la recherche, les pubs, le spam et les informations indésirables, et même automatiser les tâches internet que je veux accomplir. Après 25 ans d’accumulation de favoris, les favoris seuls ne suffisent plus. Quand on cherche une seule info sur des sites encombrés et qu’on finit à s’égarer complètement, un bot garde du corps qui filtre le bruit et le superflu pourrait vraiment améliorer les choses. Si ça fonctionne vraiment bien, cela pourrait réunir à la fois les rôles d’assistant personnel dans l’espace numérique, de tour manager, de portier, de gouvernante, de technicien, etc., et en 2025, alors que le navigateur est devenu le principal portail vers un internet chaotique, cette direction ne me paraît pas mauvaise. Au final, tout dépendra de l’exécution, mais je suis très curieux de voir comment ce projet va évoluer

    • Merci beaucoup pour ce retour franc. C’est exactement la vision que nous avions. On passe plus de 90 % de nos journées dans le navigateur, et pourtant il reste encore une simple « fenêtre stupide ». S’il pouvait se souvenir de l’historique, clipper les articles importants et en conserver les surlignages comme Evernote web clipper, tout en rendant tout consultable via une recherche sémantique, cela changerait la vie. Toutes les données sont stockées dans une base locale PostgresDB, et il pourrait répondre immédiatement à des questions comme « c’était quoi déjà cette comparaison de prix du mois dernier ? » ou « retrouve-moi les surlignages d’automatisation du navigateur ». Il inclut aussi une fonction pour bloquer les sites distrayants quand il faut se concentrer. Au-delà de la recherche et de la mémoire, on entre dans une époque où le navigateur aide réellement à faire le travail. Par exemple, regrouper automatiquement les onglets par sujet, comparer les prix des disques durs par site, résumer les nouveaux messages d’un serveur Discord, tout cela traité localement. Le navigateur devrait nous aider dans le chaos d’internet, pas le rendre encore plus complexe. J’aimerais vraiment savoir quels workflows te semblent les plus pénibles au quotidien, ou si tu as des cas d’usage précis

    • En réalité, c’est presque exactement ce que Microsoft essayait de faire avec Recall. J’attendais de cette fonctionnalité qu’elle soit la seule issue de la vague IA à vraiment améliorer ma vie, mais en y réfléchissant bien, ce que je veux vraiment, ce n’est pas de l’IA : c’est que mon ordinateur conserve localement un historique détaillé et fournisse une recherche avancée. Je veux qu’il se souvienne systématiquement de tout ce que j’ai fait sur mon ordinateur. Les sites visités, jusqu’où j’ai fait défiler chaque page, même les pensées que j’ai tapées puis effacées : je veux une fonction de « total recall » qui stocke tout. Parce que mon cerveau se trompe toujours dans ses souvenirs, j’attends de l’ordinateur une mémoire plus parfaite. Et je veux aussi une recherche toujours cohérente et déterministe. Il faut des horodatages précis, des opérateurs booléens, et pour le NLP, Lucene faisait déjà très bien le travail il y a 20 ans. Je n’ai pas besoin de résumés auto-générés à partir de corpus externes ; je veux simplement que mon ordinateur se souvienne correctement de ce que j’y ai réellement fait. Je ne pense pas que les LLM apportent une grande valeur à la recherche personnelle. Par nature, ils restituent mal les données exactes, et pour obtenir une recherche précise, il faut au final indexer de façon traditionnelle. Si les LLM dominent aujourd’hui, c’est à mon avis surtout parce qu’on ne sait pas encore indexer efficacement « tout ». Or, pour la recherche personnalisée, on n’a pas besoin de « tout » : le texte affiché à l’écran et des métadonnées comme l’heure, la position du curseur, le presse-papiers, l’URL, etc. suffisent. Le seul cas où l’indexation via LLM se justifierait, c’est si stocker des instantanés textuels complets dans un index traditionnel devenait trop volumineux ; sinon, une recherche conversationnelle floue n’est pas mon objectif. Le vrai objectif, c’est le total recall

    • C’est une vision vraiment géniale. J’aimerais que mon navigateur me rappelle à l’ordre quand je perds ma concentration et qu’il analyse lui-même ce que j’ai fait. L’introspection peut être une arme très puissante ici

    • Depuis longtemps, je voulais écrire une extension de navigateur qui sauvegarde automatiquement, indexe et rende consultable le texte intégral des pages sur lesquelles je reste plus de 30 secondes. Ce projet va bien au-delà de ça

    • De mon point de vue, c’est un « bloqueur de pubs natif basé sur un LLM »… la forêt est tellement immense que rien que d’y penser me donne mal à la tête (je plaisante)

  • Au lieu de recréer directement un navigateur comme nanobrowser, je me demande si une extension robuste ne suffirait pas. nanobrowser est bien conçu sans exposition webdriver, il ne manque de rien pour l’exécution JS ou l’intégration LLM, et il propose même des fonctions agentiques complètes. Du coup, je me demande pourquoi il faut absolument un nouveau navigateur

  • C’est peut-être une question idiote, mais j’aimerais qu’on m’explique ce qu’est exactement un « agentic browser ». On dirait que tout le monde est censé déjà savoir, mais je ne sais pas si c’est un terme courant, ou simplement une façon de dire « navigateur web avec des fonctions IA »

    • Merci d’avoir posé la question. Ce n’est pas du tout une question idiote. Un « agentic browser », c’est un navigateur dans lequel un agent IA peut naviguer sur le web à votre place. C’est un navigateur où l’agent peut lui-même effectuer des actions comme refaire une commande sur Amazon ou remplir un formulaire

    • Un agent, c’est une structure où un LLM fonctionne avec des outils, par exemple calculate(expression). Quand une action est nécessaire pour obtenir le résultat souhaité, il exécute automatiquement l’outil en question. Dans un workflow complexe, l’entrée reçue par le LLM peut déclencher une combinaison de plusieurs outils, comme définir le user agent sur une certaine chaîne. Cela peut inclure l’exécution d’une commande du type set_user_agent(…), des clics sur la page, ou l’injection de JS personnalisé à l’ouverture d’une page

    • J’ai entendu le terme « agentic » pour la première fois il y a un mois. Ensuite, pendant 2 ou 3 jours, je l’ai entendu répété plusieurs fois jusque dans les town halls internes. En gros, cela désigne une IA qui décide et agit d’elle-même

  • Le concept d’agentic browser a l’air d’une idée extrêmement cool. Pouvoir automatiser des choses avec un agent côté client, c’est vraiment puissant. Mais en même temps, du point de vue sécurité, cela risque de n’être « absolument pas sûr ». Le navigateur est connecté à presque tous les comptes sensibles, et il est naturellement exposé à des entrées non fiables venant d’internet. Une seule injection de prompt, et la vie peut partir en vrille en quelques secondes. Le concept est excellent, mais à moins que toute la chaîne de fournisseurs soit certifiée PCI/SOC2/ISO 27001 et adoubée par des analystes sécurité tiers prêts à jurer de sa fiabilité, je n’y toucherais pas

    • Merci beaucoup d’avoir soulevé ce point. C’est une inquiétude totalement légitime. C’est justement pour cela que nous insistons sur une approche local-first et open source. Avec des agents cloud comme Manus.im, il faut confier ses identifiants à une boîte noire impossible à vérifier, tandis qu’avec un agent local, l’utilisateur garde le contrôle. L’agent ne fonctionne que lorsqu’on déclenche explicitement son exécution, on peut voir sa progression en temps réel et l’arrêter à tout moment, il peut tourner de manière isolée dans un profil utilisateur Chrome séparé, et surtout, comme c’est open source, on peut surveiller et vérifier le code soi-même
  • Mon cas d’usage consiste à extraire des fichiers CSV ou d’autres données depuis des sites liés à l’eau. Par exemple, extraire les données de niveau des réservoirs d’Australie-Méridionale a été un vrai calvaire, surtout avec peu d’expérience en frontend. Si ce type de tâche peut être automatisé par un agent, je l’essaierais sans hésiter

  • Je trouve que c’est vraiment un projet formidable ! Et le lancement sur HN est déjà impressionnant. Voici un retour honnête sur mes premières impressions : quand j’ai lancé le prompt du navigateur « regrouper tous les onglets par sujet », cela a très bien marché. Ensuite, je lui ai demandé de supprimer tous les groupes d’onglets et de réinitialiser, et il m’a répondu que c’était une tâche d’automatisation du navigateur à exécuter en « Agent Mode ». Quand je l’ai demandé en Agent Mode, il m’a répondu que c’était une tâche de productivité à faire en « Chat Mode ». Au final, on a continué à se renvoyer la balle, et j’ai réussi à regrouper tous les onglets dans un seul nouveau groupe, mais impossible de supprimer complètement le groupe lui-même. J’imagine que l’API correspondante n’existe pas nativement. Globalement, j’aimerais qu’il y ait un bouton « undo » pour chaque action au niveau du navigateur. Et si c’est trop compliqué, au moins que le navigateur puisse annuler les groupes d’onglets qu’il vient de créer lui-même quelques secondes auparavant. Je vais continuer à l’utiliser. edit1 : j’ai aussi parfois observé un saut vers google.com quand j’utilisais l’interface de chat sur des pages internes de Chrome comme chrome://extensions. edit2 : j’ai confirmé que le mode productivité n’a pas d’outil pour dissoudre les groupes, seulement pour les créer

    • Merci beaucoup pour le retour ! Désolé pour la gêne occasionnée. On est encore à un stade bêta très précoce. Le mode agent et le mode chat ont été conçus comme des outils séparés. Les prompts sont encore insuffisants pour l’instant, donc nous voyons bien qu’il faut les améliorer. Pour la suppression des groupes, l’API Chrome ne le permet pas encore, donc il faudra probablement l’implémenter nous-mêmes. Beaucoup de gens demandent une fonction « undo », donc on réfléchit à quelque chose dans le style de « restore checkpoint » de Cursor. J’aimerais vraiment savoir à quel point tu juges ces fonctions de productivité importantes au quotidien, et si tu as des exemples concrets :)
  • Le nom « nxtscape » me donne une nostalgie de l’ancien SCSI. Je recommanderais un nom qu’on puisse prononcer d’un seul coup, comme « GPT ». Le produit est vraiment excellent

    • À voir les retours d’aujourd’hui, je me dis qu’il faut consacrer plus de temps au nom et au branding. Je vais y réfléchir :)
  • Ce marché est totalement winner-take-all. Ce que vous essayez de faire est impressionnant, mais construire un navigateur avec une équipe de deux ou trois personnes, c’est un chantier énorme. En plus, Google a déjà laissé entrevoir la direction future à l’I/O, et dans un domaine comme celui-ci, Google peut probablement intégrer cela rapidement dans Chrome et prendre des parts de marché assez vite. Des fondateurs deeptech essaient depuis des années de conquérir Chrome sans jamais y parvenir une seule fois. Réalistement, je pense qu’il vaut mieux commencer par un petit besoin très clair avec un ICP bien défini. Ce serait dommage de gaspiller autant de passion et d’énergie

    • Merci pour ce retour honnête ! La concurrence est effectivement rude. Mais nous pensons qu’il existe un vrai vide sur le marché pour un navigateur IA open source, porté par la communauté et privacy-first, un peu à la Brave
  • Je pense qu’il y a clairement beaucoup de valeur dans des fonctions côté utilisateur, en particulier dans un navigateur qui traite et transforme automatiquement des contenus web hostiles à l’utilisateur. Quelques cas d’usage concrets : 1) lors de l’achat d’un canapé, filtrer selon des critères précis au lieu de se noyer dans le marketing exagéré ; 2) n’être notifié que quand des amis publient sur Facebook, et filtrer tout le reste ; 3) quand une communauté locale fonctionne sur Facebook ou nextdoor, masquer uniquement les publications répétitives des mêmes personnes ; 4) lorsqu’une page de consultation publique du gouvernement est inutilement gonflée à 700 pages, la résumer automatiquement pour n’en extraire que le contenu vraiment important. Cela peut s’appliquer à de nombreux domaines

    • Comme pour l’achat d’un canapé, les grands sites, Amazon compris, restent très limités dès qu’il s’agit de filtrer des éléments selon des critères précis. Avant, j’ai moi-même créé des sites comme diskprices.com en combinant scraping et data science, et si les LLM sont vraiment utiles pour ce type d’usage, alors à l’avenir, au lieu d’écrire directement des prompts dans le navigateur, on verra probablement se multiplier des sites spécialisés dans ces fonctions. Pour le blocage des publications répétitives, nextdoor propose déjà une fonction de blocage utilisateur qui peut servir de référence (guide de blocage nextdoor)

    • C’est vraiment un excellent exemple !

  • Respectez-vous robots.txt ?

    • Pas encore. Mais honnêtement, quand l’agent n’est utilisé que pour un humain, je ne suis pas sûr que ce soit important puisque ce n’est pas vraiment du scraping

    • C’est clairement un agent destiné à l’utilisateur. Si on devait en plus respecter robots.txt, ce serait franchement bien trop contraignant. robots.txt a été conçu à l’origine comme une règle de savoir-vivre pour les crawlers web, pas pour empêcher des outils qui agissent au nom d’un utilisateur individuel. Si les exploitants de sites peuvent limiter les outils permettant d’accéder à leur site, que ce soit via un terminal, un navigateur classique ou un navigateur IA, cela affaiblit un des grands atouts du web. Sacrifier la diversité du web à cause d’une hostilité envers les outils IA serait aussi dangereux pour l’avenir. Voir aussi : FAQ robots.txt