Test du nouveau Code Interpreter de Claude, lancé sous un nom extrêmement déroutant

(simonwillison.net)

7 points par GN⁺ 2025-09-10 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Revue basée sur une utilisation réelle de la fonctionnalité « Upgraded file creation and analysis » d’Anthropic, qui examine sa nature d’outil d’analyse avec exécution de code, par Simon Willison
Cette nouvelle fonctionnalité prend en charge l’exécution de code Python et Node.js dans un conteneur côté serveur ainsi que la création et l’édition de fichiers, avec une implémentation totalement différente de l’ancien « Analysis tool » basé sur JavaScript dans le navigateur
Le conteneur fournit Ubuntu 24.04.2, Python 3.12.3, Node v18.19.1, environ 9 Go de RAM / 5 Go de disque, et se distingue par une liste blanche réseau basée sur un proxy Envoy ainsi que par l’autorisation d’installer des paquets PyPI
Des tests concrets ont permis de générer un PDF de schéma de base de données SQLite et de reproduire le graphique d’adoption de l’IA d’Apollo ; la qualité du résultat peut être améliorée grâce à la conception des prompts et à l’ajustement de la visualisation
L’accès partiel à Internet implique des risques de prompt injection et de fuite de données, ce qui nécessite une surveillance par l’utilisateur ; en parallèle, l’échec du nommage et de l’explication de la fonctionnalité reste un problème pour l’ensemble du secteur

Aperçu de la fonctionnalité

Anthropic a annoncé que Claude prenait désormais en charge la création et l’édition de fichiers
- Création de feuilles de calcul Excel, documents Word, présentations PowerPoint et PDF sur Claude.ai et dans l’application desktop
- Les utilisateurs obtiennent des fichiers prêts à l’emploi en téléversant des données ou en décrivant leurs besoins
Aperçu disponible pour les utilisateurs des offres Max, Team et Enterprise ; prise en charge de l’offre Pro prévue dans les prochaines semaines
Fonctionnalités principales :
- Analyse de données : nettoyage des données brutes, analyse statistique, graphiques et extraction des insights clés
- Création de feuilles de calcul : génération avec formules de modèles financiers, suivis de projet, modèles de budget, etc.
- Travail inter-formats : conversion de PDF en PowerPoint, transformation de notes de réunion en document, etc.
L’auteur Simon Willison la présente comme la réponse à ChatGPT Code Interpreter, et juge son nom officiel, « Upgraded file creation and analysis », mal choisi
Différences avec la fonctionnalité précédente
- Analysis tool d’octobre 2024 : outil d’analyse léger reposant sur l’exécution de JavaScript dans le navigateur de l’utilisateur
- Nouvelle fonctionnalité de septembre 2025 : un véritable interpréteur de code qui exécute des commandes shell, Python et Node.js dans un conteneur côté serveur et lit/crée des fichiers
- Similaire au Code execution tool de l’API de la même entreprise, mais c’est la première fois que des utilisateurs finaux peuvent exécuter du code arbitraire dans un conteneur serveur

Caractéristiques du nouveau Code Interpreter

Le Code Interpreter de Claude est similaire à ChatGPT Code Interpreter
Il permet d’installer des paquets Python depuis PyPI (ex. : pip install sqlite-utils)
- Node.js v18.19.1 est préinstallé, et les paquets globaux npm peuvent être utilisés
Détails de l’environnement :
- OS : Ubuntu 24.04.2 LTS, noyau Linux 4.4.0
- Architecture : x86_64, shell : GNU Bash 5.2.21
- Python : 3.12.3, pip : 24.0
- Disque : 4.9 Go (4.6 Go disponibles), RAM : 9.0 Go
Contraintes : limite de 30 Mo pour l’upload/download de fichiers, capacité plus restrictive que les 512 Mo de ChatGPT
- Accès à Internet : liste blanche stricte sous proxy Envoy
- Une requête curl vers des sites généraux (ex. : google.com) renvoie une erreur 403 Forbidden
- Domaines autorisés : api.anthropic.com, github.com, registry.npmjs.org / npmjs.com, pypi.org / files.pythonhosted.org, etc. ; une liste blanche centrée sur les paquets et la gestion de versions
- Installation possible de paquets PyPI comme pip install sqlite-utils, et l’environnement Node est immédiatement exploitable
- Les conteneurs web_fetch et web_search permettent un accès limité à certains contenus web

Configuration et mode d’utilisation

Activation : activer le bouton Upgraded file creation and analysis sur claude.ai/settings/features
- Impossible de l’activer en même temps que l’Analysis Tool, afin d’éviter davantage de confusion
Tâche simple : SQLite → PDF de diagramme de jointures
- Entrée : téléversement de la base SQLite du site TIL (≈21,9 Mo), puis demande de création d’un PDF de diagramme de jointures entre tables
- Résultat : génération réussie du PDF/PNG ; la lisibilité des connexions restait un peu insuffisante, mais des prompts plus précis ont montré un potentiel d’amélioration
- Signification : le workflow standard d’un Code Interpreter — analyser un fichier de base de données téléversé en Python puis générer une image ou un PDF — fonctionne de manière fluide
Tâche complexe : reproduction d’un graphique sur le taux d’adoption de l’IA
- Tâche : à partir d’une capture d’écran + d’un fichier XLSX, demander de reproduire un graphique linéaire de série temporelle proche de l’original
- Processus :
  - Le premier résultat présentait une rudesse visuelle, avec notamment des lignes droites et des chevauchements d’étiquettes
  - En demandant l’application d’une moyenne mobile sur 6 vagues d’enquête, la courbe de tendance a été améliorée
  - En précisant l’exigence d’une « interpolation courbe plutôt que linéaire », le rendu a produit des courbes plus douces, et le chevauchement du titre a été corrigé avec des instructions supplémentaires
- Enseignement : en combinant des prompts compatibles avec le modèle et un réglage fin des paramètres de visualisation, il est possible d’obtenir une productivité comparable à celle de ChatGPT

Sécurité et risques de prompt injection

L’accès à Internet introduit un risque d’attaques par prompt injection
- Des instructions malveillantes peuvent être injectées via des fichiers ou des sites web
- Exemples : exécution de code non fiable, exfiltration de données sensibles
Anthropic a mené des opérations de red teaming et des tests de sécurité, tout en recommandant une surveillance par l’utilisateur
- L’autorisation de GitHub suscite des inquiétudes quant à l’augmentation des vecteurs de fuite de données
Recommandations : faire preuve de prudence avec les données sensibles et interrompre immédiatement l’usage en cas d’accès inattendu à des données

Évaluation de l’utilisabilité et de la qualité

Le Code Interpreter de Claude offre des capacités qui dépassent celles de ChatGPT Code Interpreter
Points forts
- L’autorisation d’installer depuis PyPI + la prise en charge de Node offrent une excellente extensibilité de l’écosystème d’outils
- Il permet d’exécuter en une seule fois un pipeline interactif allant de la création, conversion et visualisation de fichiers
Limites
- La limite de 30 Mo contraint le téléversement de gros jeux de données ou bases de données
- Pour certaines visualisations, un ajustement fin peut nécessiter des itérations supplémentaires de prompt
Valeur : le Code Interpreter est l’une des fonctionnalités les plus utiles des LLM, et cette mise à niveau de Claude renforce encore l’intérêt qu’il suscite

Le casse-tête du nommage et de la communication

Anthropic : après l’ancien nom Analysis tool, l’entreprise adopte le nom encore plus déroutant « Upgraded file creation and analysis », en reléguant la capacité d’exécution de code au second plan dans ses documents de lancement
OpenAI : a aussi connu des hésitations de dénomination entre Code Interpreter et Advanced Data Analysis, avec une visibilité limitée de la page officielle de présentation
Conclusion : le secteur échoue de manière répétée à transmettre clairement la valeur centrale de cette création et analyse de fichiers avec exécution de code, et doit améliorer sa terminologie et ses guides pour renforcer la compréhension et la confiance des utilisateurs

Test du nouveau Code Interpreter de Claude, lancé sous un nom extrêmement déroutant

Aperçu de la fonctionnalité

Caractéristiques du nouveau Code Interpreter

Configuration et mode d’utilisation

Tâche simple : SQLite → PDF de diagramme de jointures

Tâche complexe : reproduction d’un graphique sur le taux d’adoption de l’IA

Sécurité et risques de prompt injection

Évaluation de l’utilisabilité et de la qualité

Le casse-tête du nommage et de la communication

À lire aussi

Aucun commentaire pour le moment.