1 points par GN⁺ 4 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Claude Science est une application en bêta publique conçue pour permettre aux chercheurs en sciences de la vie d’enchaîner, dans un même workbench, l’exécution d’analyses, la recherche dans des bases de données, le prétraitement des données et la rédaction des résultats
  • Les figures, tableaux et notebooks conservent le code généré, l’environnement d’exécution et l’historique des conversations afin de pouvoir être reproduits, modifiés et vérifiés ultérieurement
  • Elle s’exécute sur des notebooks locaux, des machines Linux, des nœuds de connexion HPC et des VM cloud, et prend en charge la soumission et la gestion de tâches via SSH, Slurm et Modal
  • Elle cible la génomique, le single-cell, la protéomique, la biologie structurale et la chimio-informatique, avec la possibilité de se connecter à plus de 60 bases de données scientifiques et aux outils NVIDIA BioNeMo
  • Disponible sur macOS et Linux avec les offres Pro, Max, Team et Enterprise, mais comme il s’agit d’une application bêta, il faut consulter la documentation et configurer les paramètres administrateur avant un déploiement en organisation

Un workbench Claude pour la recherche scientifique

  • Claude Science est une application en bêta publique, pas un nouveau modèle, et utilise les modèles Claude existants inclus dans l’offre de l’utilisateur
  • La nouveauté réside dans les outils scientifiques autour de Claude, les connexions aux bases de données et l’intégration du calcul, qui permettent d’exécuter des analyses complètes sur l’infrastructure de l’utilisateur
  • Elle est disponible pour macOS et Linux, avec des téléchargements indiqués sur la page pour chaque système d’exploitation
  • L’objectif est de regrouper les bases de données scientifiques, les outils de recherche, les ELN, les modèles de protéines et de structures, ainsi que le HPC, dans un même workbench de recherche

Résultats reproductibles et flux de revue

  • Claude Science permet de visualiser nativement des protéines, des structures, des molécules, etc., et de remonter des résultats jusqu’au code qui les a générés
  • Les figures, tableaux et notebooks enregistrent aussi les informations suivantes
    • le code exact ayant produit le résultat
    • l’environnement d’exécution
    • la conversation ayant produit le résultat
  • Les résultats enregistrés peuvent être reproduits, modifiés et défendus même plusieurs mois plus tard
  • Les protéines, alignements, pistes génomiques, structures chimiques et PDF peuvent être consultés dans leur format natif sans installation supplémentaire
  • Le reviewer en arrière-plan signale les citations incorrectes, les chiffres impossibles à retracer et les figures qui ne correspondent pas au code sous-jacent
  • L’utilisateur peut annoter une figure pour demander une modification ou poser une question, et l’agent lit le code qui a produit cette figure pour la modifier directement
  • La rédaction des résultats d’analyse peut se faire avec un aperçu du Markdown rendu et de LaTeX

Calcul et environnements d’exécution

  • L’application gère l’environnement d’exécution nécessaire à chaque analyse, dont l’emplacement peut être un notebook, une machine Linux ou un nœud de connexion HPC
  • Après avoir rédigé des scripts batch, elle les soumet et les gère via SSH sur la machine de l’utilisateur ou sur un cluster HPC, ou exécute les tâches avec un compte Modal
  • L’emplacement d’installation peut être adapté à l’endroit où se trouvent les données
    • notebook
    • machine Linux du laboratoire
    • nœud de connexion HPC
    • VM cloud
  • Elle peut être utilisée via une connexion depuis un navigateur
  • Les tâches s’exécutent sur un kernel local, sur un cluster Slurm via SSH ou dans un compte Modal
  • Les variables, dataframes et modèles chargés restent en mémoire pendant toute l’analyse, ce qui accélère les itérations

Travaux par domaine des sciences de la vie

  • Claude Science prend en charge la génomique, le single-cell, la protéomique, la biologie structurale, la chimio-informatique, etc., peut lire la littérature et interroger plus de 60 bases de données scientifiques
  • Voici les principaux exemples d’utilisation
    • Analyse single-cell RNA-seq : clustering et annotation de millions de cellules sur l’ensemble d’un tissu, identification de gènes marqueurs de surface et traçabilité de chaque figure jusqu’au code généré
    • Analyse phylogénétique et évolutive : alignement d’orthologues, inférence d’arbres par maximum de vraisemblance et cartographie phylogénétique des résidus fonctionnels dans une même session reproductible
    • Travaux sur les structures protéiques et les modèles de langage : importation de structures prédites, superposition de domaines et de variants cliniques, puis exploration interactive en 3D
    • Chimio-informatique et conception moléculaire : recherche de données de bioactivité, calcul de propriétés et de similarités, et dessin ou affinage de structures dans un sketcher 2D
  • Les pipelines peuvent être enregistrés sous forme de skills réutilisables, et les outils préférés du laboratoire peuvent être connectés comme connectors pour être utilisés automatiquement dans les sessions ultérieures
  • Elle fournit un dossier d’indication entièrement sourcé et étend l’ensemble de skills qui constitue les éléments probants de chaque programme

Connexion à la stack existante du laboratoire

  • Les connectors importent les API internes, ELN et pipelines personnalisés dans le workflow, afin que Claude Science fonctionne avec les outils déjà utilisés par le laboratoire
  • Les workflows Python, R et shell existants peuvent être lus, exécutés et étendus sans devoir être reconstruits depuis zéro
  • Les outils scientifiques, plateformes et modèles ouverts spécialisés par domaine peuvent être branchés sous forme de skill ou de connector
  • Claude Science joue le rôle de workbench intégré permettant à des outils spécialisés de fonctionner ensemble, plutôt que de remplacer un outil particulier

Connexions aux modèles, outils et données

  • Au-delà de ce que permet un assistant IA généraliste qui discute de biologie, Claude Science prend en charge l’exécution de pipelines, l’exploration de bases de données scientifiques, l’orchestration de tâches sur cluster et le suivi de l’historique des sessions précédentes
  • L’application inclut des spécialistes d’analyse pour la génomique, le single-cell, la protéomique, la biologie structurale, la chimio-informatique, etc.
  • Elle peut se connecter nativement à des modèles ouverts spécialisés par domaine et à plus de 60 bases de données scientifiques
  • Elle utilise le skill BioNeMo Agent Toolkit de NVIDIA pour se connecter aux modèles et bibliothèques de sciences de la vie de BioNeMo
    • Exemples inclus : Evo 2, Boltz-2 et OpenFold3

Emplacement des données et vérification

  • L’application Claude Science s’exécute sur l’infrastructure de l’utilisateur, et les jeux de données bruts ainsi que le calcul restent en local
  • Les contenus inclus dans les prompts et les réponses du modèle sont traités conformément aux politiques de conservation standard d’Anthropic
  • Les besoins propres à chaque équipe peuvent être discutés via une prise de contact commerciale
  • Tous les livrables comprennent les informations suivantes
    • le code exact utilisé pour la génération
    • l’environnement d’exécution
    • une description en langage clair des tâches effectuées
    • la conversation ayant mené au résultat
  • Le reviewer en arrière-plan signale les affirmations qui ne peuvent pas être reliées à des preuves avant l’affichage du résultat

Offres, remise pour les laboratoires et déploiement en entreprise

  • Claude Science est une application bêta disponible sur macOS et Linux avec les offres Pro, Max, Team et Enterprise
  • Pour les utilisateurs Team et Enterprise, un administrateur doit d’abord l’activer
  • La remise pour laboratoires Claude Team plan for research labs inclut l’accès à l’application Claude Science
    • Elle s’adresse aux laboratoires de recherche scientifique actifs dans les établissements universitaires et organismes de recherche à but non lucratif
    • Les laboratoires de recherche biomédicale et fondamentale, ainsi que les hard sciences comme la chimie, les mathématiques, l’informatique et la physique, font partie des priorités
    • L’éligibilité est vérifiée via le responsable du laboratoire
  • Les entreprises commerciales, organismes de recherche contractuelle et équipes de R&D industrielles doivent consulter les offres Team et Enterprise
  • L’offre Enterprise fournit le SSO, le provisionnement SCIM, des rôles personnalisés et l’analyse de l’utilisation
  • En raison du statut bêta, les administrateurs doivent consulter la documentation avant le déploiement
  • La documentation couvre l’installation, la connexion des outils et du calcul, ainsi que les paramètres administrateur Team et Enterprise

1 commentaires

 
GN⁺ 4 시간 전
Avis de Hacker News
  • J’ai créé Biomni HPC, l’un des outils de connexion inclus dans cette sortie, et je travaille sur ce problème depuis un bon moment. J’ai aussi travaillé chez Anthropic, mais je ne suis pas responsable de ce produit
    Comme le disent d’autres commentaires, c’est destiné à la science des données, mais cela peut faire bien plus que créer des graphiques et rédiger des articles. Il s’intègre à de nombreuses bases de données et outils de calcul, y compris les clusters institutionnels des chercheurs
    Rien que cela a beaucoup de valeur. J’ai souffert de ce problème dans une startup biotech, puis j’ai fondé une startup : ces intégrations d’outils et de bases de données sont difficiles et prennent beaucoup de temps. Même si le seul résultat de ce produit était de construire d’excellentes API pour les LLM, ce serait déjà un impact très positif. Beaucoup de bases de données utilisées en génomique computationnelle ne sont encore accessibles que par FTP
    Les LLM sont particulièrement bien adaptés à l’exploration de ce type d’outils et de bases de données. Il y a beaucoup de tâches simples, très spécialisées, mais faciles à traiter avec des compétences apprises en contexte. Voir d’anciens clients bio-informaticiens commencer à résoudre ce problème avec des LLM m’a amené à rejoindre Anthropic en 2024
    Par ailleurs, ce schéma n’est pas intrinsèquement limité à la science des données. Dans certaines disciplines scientifiques, on peut aussi l’intégrer à des laboratoires humides ou à des CRO, et c’est là-dessus que je passe du temps en ce moment
    Cette manière de faire de la science ne résoudra pas tout, mais elle est utile dans certains domaines. Par exemple, beaucoup de recherches sur les maladies rares progressent lentement davantage à cause d’un goulot d’étranglement de l’attention des chercheurs que faute de percée fondamentale
    https://x.com/phylo_bio/article/2029233694775624096
    À titre de comparaison, Prism, le produit scientifique d’OpenAI, était en pratique plutôt un éditeur LaTeX obtenu via l’acquisition de Crixet

    • Je me demande en quoi cela diffère de l’inclusion ou de la configuration de plusieurs technologies d’agents. Ou bien si le cœur de ce produit consiste à combiner beaucoup de valeurs par défaut utiles
    • Connecter directement l’IA aux sources de données peut devenir bien plus complexe que de recevoir du code à exécuter localement
      Il faut respecter les politiques institutionnelles, les réglementations applicables, les exigences d’accès et de stockage des données, comme celles des dépôts de données du NIH, et il peut aussi falloir des contrats juridiques entre l’institution et le fournisseur d’IA. Pour l’instant au moins, c’est difficile à aborder
    • Je me demande comment on valide ce type de travail pour filtrer les fabrications des LLM
    • J’aimerais voir un jour de bien meilleures visualisations dans Claude Science. Au-delà des simples graphiques ou des structures protéiques et chimiques, ce serait bien d’avoir des scènes à base de threejs et de shaders, avec un côté pédagogique. Ce serait génial si cette fonction accompagnait beaucoup d’articles dans les revues de littérature
    • J’ai déjà intégré Biomni dans un espace de travail intelligent : https://blog.codesolvent.com/2025/07/ai-assistant-with-biome...
      Si cela vous intéresse, on peut en discuter
  • Ce qui est le plus intéressant ici, c’est que Claude Science exécute un serveur local, ainsi qu’une UI web qui se connecte à ce serveur depuis le navigateur
    C’est assez différent d’une architecture comme Claude Code ou Cowork, où l’UI est plus fortement couplée à la machine hôte, ce qui permet des fonctions comme l’utilisation de l’ordinateur
    On peut deviner la stratégie. La plupart des environnements pharmaceutiques connectés à des données intéressantes sont très verrouillés, au point qu’on ne peut pas simplement connecter un MacBook aux données sources
    De même, l’accès à de grands jeux de données de biobanques génomiques comme UK Biobank ou NIH All of Us n’est autorisé qu’au travers de plateformes distantes d’analyse de données appelées Trusted Research Environment (TRE), avec généralement un accès à Internet restreint. Exécuter une application desktop n’est pas simple, mais ces environnements prennent en général en charge l’exécution de JupyterLab ou de VS Code, avec un tunneling de l’UI vers l’utilisateur final. J’ai auparavant dirigé l’équipe qui a créé le TRE d’All of Us
    Il est facile d’imaginer Claude Science non pas comme une méga-application Claude qui fait tout, mais comme un serveur lancé dans ce type d’environnement de données contraint, dont seule l’UI est proxifiée vers le navigateur de l’utilisateur. Ce point sera important pour son adoption dans les environnements de R&D pharmaceutique
    Cela dit, pour des scientifiques computationnels de niveau intermédiaire qui utilisent RStudio, JupyterLab et VS Code au quotidien, Claude Science pourrait être une forme de produit assez inhabituelle. Je me demande s’il remplacera les établis existants de data science, s’il sera utilisé avec eux, ou s’il finira par les envelopper

    • Dans mon travail, où je fais beaucoup de tâches de nature scientifique computationnelle, la combinaison de Claude Code avec les bibliothèques Python standard de données s’est révélée très puissante et a fortement accéléré mon workflow
      En tant qu’analyste de données dans une entreprise géologique, je travaille sur des données de capteurs intéressantes ; quand j’ai besoin d’une analyse rapide ou d’une visualisation, Claude écrit en quelques minutes du code que j’aurais mis environ une heure à préparer. Le fait de connaître suffisamment les bibliothèques concernées pour pouvoir lire et vérifier le code est une différence importante avec l’utilisation aveugle d’une IA boîte noire
      En revanche, pour l’instant, Claude Code et Jupyter dans VS Code ne s’accordent pas très bien. À chaque modification de Claude, cela oblige à réexécuter tout le notebook depuis le début. Je prends donc un peu de recul par rapport aux notebooks : je laisse Claude écrire des scripts indépendants, puis je passe ensuite du temps à les recomposer dans un joli notebook
    • Je suis d’accord pour dire que l’architecture est intéressante, mais je ne vois pas très bien comment elle fonctionnerait sur des serveurs fortement contrôlés
      Si l’on ne peut pas s’y connecter depuis un Mac, il est très probable qu’on n’autorise pas non plus un agent sur le serveur à envoyer des requêtes
  • J’ai testé ce que ça donnait dans mon domaine, la conception computationnelle de biopesticides à base d’ARNi
    Je lui ai fait produire d’un seul coup une conception ciblant le transcriptome DvSnf7 de la chrysomèle des racines du maïs, et l’approche était assez naïve. C’était du niveau de ce que ferait un doctorant en première année, mais il a quand même fait le travail
    Il a aussi relevé des limites, comme l’utilisation de règles de conception pour les mammifères ou un contrôle limité des effets hors cible. Ce n’est pas catastrophique, mais ce n’est pas excellent non plus. Quand j’ai pointé les défauts, l’IA a estimé qu’elle aurait pu mieux savoir et mieux aborder le sujet. Ensuite, le système de sécurité d’Opus 4.8 a marqué la session comme suspecte

    • Si vous pensez vraiment pouvoir l’utiliser à des fins positives, vous ou votre institution/entreprise feriez bien de candidater aux programmes bio d’OpenAI et d’Anthropic
    • Ces temps-ci, les blagues s’écrivent toutes seules
      Je recommande de rassembler les 10 articles clés sur ce sujet et 10 manuels généraux du domaine, de les convertir en texte brut via OCR ou extraction de texte, puis d’essayer la même tâche avec un meilleur harnais d’agent, comme omp.sh
      /goal set create biopesticide targeting the DvSnf7 transcript of western corn rootworm
      Ne faites pas d’erreur
  • Quand j’ai vu « Science », je ne pensais pas que cela voulait dire science des données, mais l’interface pleine de code pandas et de graphiques donne cette impression
    Même en supposant que l’accent soit mis sur les sciences, si l’on tient compte du fait que cela ressemble à Jupyter Notebook 2.0, c’est peut-être l’une des parties les moins précieuses de l’annonce
    Les cas d’usage consistant à comprendre des visualisations de données comme des images ont longtemps été négligés, et les LLM récents deviennent aussi de plus en plus bons en véritable analyse exploratoire de données. Il faudra peut-être quand même que je mette mon CV à jour

    • Beaucoup de domaines des sciences naturelles et sociales utilisent du code matplotlib bancal pour produire des résultats et des visualisations, sans pour autant appeler cela de la science des données
      D’après ce que j’ai vu, je choisirais à tout moment le code généré par Claude plutôt que celui écrit par des gens en maths, physique, biologie ou linguistique. J’ai aussi vu Claude faire d’énormes erreurs en analyse de données, mais il est probablement déjà plus fiable que la plupart des universitaires qui codent
    • D’après la vidéo, cela semble plutôt pensé pour la bioinformatique. Selon la définition des termes, ça peut entrer sous l’ombrelle de la science des données, mais on ne l’appelle généralement pas ainsi
      Le type de science se définit par ce qu’on étudie, pas par la chaîne d’outils
    • Ils mentionnent aussi des choses comme la visualisation de protéines et de structures chimiques
    • Tous ces nouveaux produits commencent à ressembler à de la propagande du programme spatial soviétique. Je ne sais pas s’il y a vraiment quelque chose de nouveau
  • Avant les LLM, les groupes tech que je suivais débattaient activement de quels sujets utiliser, quand et pour quoi, et je pense que ces discussions ont donné naissance à beaucoup de frameworks et d’outils sur le mode « ça semble être une idée correcte, donc ça ne coûte rien de l’implémenter »
    Malheureusement, aujourd’hui tout tourne autour des LLM, et on ne parle plus que de la façon de faire fonctionner les LLM d’une manière ou d’une autre. Les sujets mêmes pour lesquels ces groupes avaient été créés ne sont presque plus abordés
    J’ai peur que la science subisse bientôt la même chose. Les discussions sur les LLM pourraient prendre la place des vrais sujets qui devraient être débattus

    • Des centaines de milliards de dollars ont déjà été investis dans les LLM
      Si les actifs existants ne sont pas exploités d’une manière ou d’une autre, le retour sur capital investi ne risque pas de paraître bon
      Ce n’est pas un argument pour, cela veut simplement dire qu’au bout du compte, les dirigeants doivent répondre à des actionnaires qui regardent ce genre d’indicateurs de rendement
    • Les LLM sont globalement assez peu utiles, et les gens commencent à s’en rendre compte
  • Cette annonce semble avoir ouvert Claude Desktop pour Linux : https://code.claude.com/docs/en/desktop-linux

    • Dommage, les distributions basées sur Arch ne sont pas prises en charge. Je me demande pourquoi ils ne l’ont pas empaqueté en Flatpak
  • J’ai essayé des outils similaires et, même s’ils sont impressionnants, les LLM produisent trop souvent des données fausses mais plausibles qu’ils présentent comme réelles
    Cela va jusqu’à mettre en place de faux connecteurs de base de données pour donner l’impression que les données viennent du bon endroit, alors qu’en réalité ils utilisent des données synthétiques — une manipulation assez poussée
    Je me demande comment ce produit empêche cela

  • Ce n’était pas cette entreprise qui, côté biosciences, faisait ressembler les LLM à des modèles dévoyés ?

  • Je me demande si c’est une sorte de Claude Cowork pour la science, autrement dit un produit destiné aux utilisateurs moins à l’aise avec la technologie
    Un scientifique ayant des bases en code préférera sans doute utiliser Claude Code de manière générale et l’intégrer à la stack de son choix, mais le confort et l’ergonomie de Claude Science pourraient finir par l’emporter

    • lebovic a répondu, mais ce n’est pas simplement Claude Cowork : il y a notamment des connexions et des fonctionnalités liées aux clusters HPC
      J’imagine très bien l’équipe de laboratoire national où j’étais auparavant intégrer ça à ses systèmes et abandonner complètement l’usage de Claude Code
  • Il faudrait l’appeler Claude-bio-big-bucks
    Et les sciences de la Terre, la physique, l’ingénierie ? Les connecteurs et les technologies semblent tous orientés biologie et pharma

    • Si vous voulez que les entreprises focalisées sur la rentabilité ne ciblent pas seulement les sciences de la vie, il suffit de financer tous les autres domaines à une échelle comparable à celle des sommes injectées dans les sciences de la vie
      Avant Trump, le budget annuel de la NSF était d’environ 6 à 8 milliards de dollars, tandis que celui des NIH était d’environ 50 milliards de dollars. Voilà toute la différence