2 points par flamehaven01 2026-03-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Vue d’ensemble

  • Ce rapport rassemble les résultats d’un audit mené, en mars 2026, sur 10 dépôts Bio-IA et d’automatisation scientifique adjacente à forte visibilité.
  • La sélection n’a pas été faite au hasard, mais selon les stars GitHub, la fréquence des discussions techniques et l’exposition réelle dans l’écosystème.
  • L’audit s’est déroulé en deux étapes : 1) revue technique du code — structure du repo, points d’entrée, exécution ; 2) notation avec STEM-AI v1.0.4 pour évaluer l’intégrité de la documentation, le code, les tests, la gouvernance, etc.
  • Conclusion : la plupart sont exécutables. Mais ils ne sont pas encore dignes de confiance. L’absence de gouvernance montre les limites de la Bio-IA.

1. État actuel de la Bio-IA en 2026

  • Forte augmentation des outils Bio-IA basés sur les LLM.
  • Le hype autour des agents, des skills et des wrappers d’automatisation se propage aussi rapidement.
  • Les performances apparentes et l’utilité progressent.
  • Mais les mécanismes de validation manquent.
  • Les responsabilités sont floues.
  • C’est particulièrement risqué dans des domaines à haut risque comme la découverte de médicaments.
  • En bref, la validation et la gouvernance accusent un retard bien plus important que la diffusion des capacités.

2. Périmètre de l’audit

  • 10 projets ont été retenus.
  • Critères : visibilité, influence, exposition réelle, fréquence des discussions, centralité.
    • Biomni
    • AI-Scientist
    • CellAgent
    • ClawBio
    • LabClaw
    • claude-scientific-skills
    • SciAgent-Skills
    • BioAgents
    • BioClaw
    • OpenClaw-Medical-Skills

3. Méthode d’audit

  • L’audit s’est déroulé en deux phases.
  • Phase 1. Technical Code Audit
    • Vérification de la structure du dépôt.
    • Vérification des points d’entrée.
    • Vérification de la couche d’orchestration.
    • Traçage des chemins d’exécution.
    • Vérification des chemins de sortie.
    • Inspection directe des fichiers clés.
    • Comparaison entre les affirmations du README et le code réel.
    • Autrement dit, l’examen a porté moins sur « ce qui est écrit comme promesse » que sur « ce que le code fait réellement ».
  • Phase 2. Notation STEM-AI v1.0.4
    • Évaluation S1.
    • Vérification du README et de l’intégrité documentaire.
    • Évaluation S3.
    • Vérification de la substance du code, des tests, de la discipline de modification et des dispositifs d’intégrité biologique.
    • En d’autres termes, il ne s’agit pas d’une impression générale, mais d’une notation fondée sur une vérification structurelle.
  • Principes d’audit
    • Il ne s’agit pas d’une reproduction dynamique exhaustive de l’ensemble des dépôts.
    • À la place, l’audit se concentre sur les parties directement liées aux affirmations essentielles.
    • Les zones à risque élevé ou contradictoires font l’objet d’un examen approfondi.
    • Principe clé : la surface d’exécution prime sur le README. En cas de conflit entre documentation et code, le jugement est basé sur l’exécution, non sur la documentation.
    • En ce sens, cet audit est plus proche d’un diagnostic structurel que d’un benchmark de reproductibilité.

4. Barème de notation

  • T0 : confiance non établie. Même si le système s’exécute, il est difficile de le considérer comme fiable.
  • T1 : certains éléments structurels existent, mais la confiance reste insuffisante. Niveau exploration ou référence.
  • T2 : progression significative, mais encore insuffisante pour un pilote supervisé.
  • T3 : seuil minimal permettant d’envisager un pilote supervisé.
  • T4 : niveau à partir duquel on peut envisager un lien avec des environnements à responsabilité de résultat plus élevée.
  • Le rapport retient T3 comme seuil minimal pour un pilote supervisé, et T4 comme seuil minimal pour un environnement à responsabilité de résultat plus forte.

5. Résultats

  • Résultats par repo
    • AI-Scientist — 48 points, T1
    • Biomni — 17 points, T0
    • BioAgents — 30 points, T0
    • BioClaw — 29 points, T0
    • CellAgent — 15 points, T0
    • ClawBio — 63 points, T2
    • claude-scientific-skills — 24 points, T0
    • LabClaw — 20 points, T0
    • SciAgent-Skills — 32 points, T0
    • OpenClaw-Medical-Skills — 22 points, T0
  • Signification des résultats
    • 8 sur 10 n’établissent pas la confiance.
    • 1 présente quelques éléments structurels, mais reste insuffisant.
    • 1 est le meilleur du lot, mais n’atteint toujours pas le seuil minimal pour un pilote.
    • Aucun n’atteint T3 ou plus. Autrement dit, aucun dépôt ne franchit le seuil minimal requis pour un pilote supervisé.

6. Problèmes récurrents observés

  • Affirmations excessives
  • Validation faible
  • Manque de traçabilité
  • Limites de défaillance insuffisamment définies
  • Écart entre le README et la réalité de l’exécution
  • Absence de gouvernance
  • Reproductibilité insuffisante
  • Flou sur la licence, la responsabilité et les limites d’exploitation
  • Discours sur des usages proches du clinique, mais structure de responsabilité fragile
  • La CI est davantage orientée vers la validation syntaxique et formelle que vers la validation scientifique.
  • Des cas où des mocks et placeholders donnent l’apparence de fonctionnalités réelles ont été relevés.
  • Même lorsque la conception locale semble bonne, les paramètres de déploiement par défaut se révèlent souvent risqués.

7. Conclusion finale

  • Ce rapport ne dit pas que tout l’open source Bio-IA est « inutile ».
  • Le point central est de souligner qu’avoir l’air compétent et être digne de confiance sont deux choses différentes.
  • Le principal goulot d’étranglement n’est pas seulement la capacité des modèles, mais plus encore l’absence de validation, de traçabilité, de responsabilité et de gouvernance.
  • Plus précisément, la Bio-IA ne pourra devenir un système fiable qu’en améliorant sa structure pour rendre les affirmations et les sorties reproductibles, clarifier les limites et permettre une revue institutionnelle.

8. Résumé en une ligne

  • Le principal problème de la Bio-IA n’est pas le manque de capacités, mais le manque de validation et de gouvernance.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.