Vue d’ensemble
- Ce rapport rassemble les résultats d’un audit mené, en mars 2026, sur 10 dépôts Bio-IA et d’automatisation scientifique adjacente à forte visibilité.
- La sélection n’a pas été faite au hasard, mais selon les stars GitHub, la fréquence des discussions techniques et l’exposition réelle dans l’écosystème.
- L’audit s’est déroulé en deux étapes : 1) revue technique du code — structure du repo, points d’entrée, exécution ; 2) notation avec STEM-AI v1.0.4 pour évaluer l’intégrité de la documentation, le code, les tests, la gouvernance, etc.
- Conclusion : la plupart sont exécutables. Mais ils ne sont pas encore dignes de confiance. L’absence de gouvernance montre les limites de la Bio-IA.
1. État actuel de la Bio-IA en 2026
- Forte augmentation des outils Bio-IA basés sur les LLM.
- Le hype autour des agents, des skills et des wrappers d’automatisation se propage aussi rapidement.
- Les performances apparentes et l’utilité progressent.
- Mais les mécanismes de validation manquent.
- Les responsabilités sont floues.
- C’est particulièrement risqué dans des domaines à haut risque comme la découverte de médicaments.
- En bref, la validation et la gouvernance accusent un retard bien plus important que la diffusion des capacités.
2. Périmètre de l’audit
- 10 projets ont été retenus.
- Critères : visibilité, influence, exposition réelle, fréquence des discussions, centralité.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Méthode d’audit
- L’audit s’est déroulé en deux phases.
- Phase 1. Technical Code Audit
- Vérification de la structure du dépôt.
- Vérification des points d’entrée.
- Vérification de la couche d’orchestration.
- Traçage des chemins d’exécution.
- Vérification des chemins de sortie.
- Inspection directe des fichiers clés.
- Comparaison entre les affirmations du README et le code réel.
- Autrement dit, l’examen a porté moins sur « ce qui est écrit comme promesse » que sur « ce que le code fait réellement ».
- Phase 2. Notation STEM-AI v1.0.4
- Évaluation S1.
- Vérification du README et de l’intégrité documentaire.
- Évaluation S3.
- Vérification de la substance du code, des tests, de la discipline de modification et des dispositifs d’intégrité biologique.
- En d’autres termes, il ne s’agit pas d’une impression générale, mais d’une notation fondée sur une vérification structurelle.
- Principes d’audit
- Il ne s’agit pas d’une reproduction dynamique exhaustive de l’ensemble des dépôts.
- À la place, l’audit se concentre sur les parties directement liées aux affirmations essentielles.
- Les zones à risque élevé ou contradictoires font l’objet d’un examen approfondi.
- Principe clé : la surface d’exécution prime sur le README. En cas de conflit entre documentation et code, le jugement est basé sur l’exécution, non sur la documentation.
- En ce sens, cet audit est plus proche d’un diagnostic structurel que d’un benchmark de reproductibilité.
4. Barème de notation
- T0 : confiance non établie. Même si le système s’exécute, il est difficile de le considérer comme fiable.
- T1 : certains éléments structurels existent, mais la confiance reste insuffisante. Niveau exploration ou référence.
- T2 : progression significative, mais encore insuffisante pour un pilote supervisé.
- T3 : seuil minimal permettant d’envisager un pilote supervisé.
- T4 : niveau à partir duquel on peut envisager un lien avec des environnements à responsabilité de résultat plus élevée.
- Le rapport retient T3 comme seuil minimal pour un pilote supervisé, et T4 comme seuil minimal pour un environnement à responsabilité de résultat plus forte.
5. Résultats
- Résultats par repo
- AI-Scientist — 48 points, T1
- Biomni — 17 points, T0
- BioAgents — 30 points, T0
- BioClaw — 29 points, T0
- CellAgent — 15 points, T0
- ClawBio — 63 points, T2
- claude-scientific-skills — 24 points, T0
- LabClaw — 20 points, T0
- SciAgent-Skills — 32 points, T0
- OpenClaw-Medical-Skills — 22 points, T0
- Signification des résultats
- 8 sur 10 n’établissent pas la confiance.
- 1 présente quelques éléments structurels, mais reste insuffisant.
- 1 est le meilleur du lot, mais n’atteint toujours pas le seuil minimal pour un pilote.
- Aucun n’atteint T3 ou plus. Autrement dit, aucun dépôt ne franchit le seuil minimal requis pour un pilote supervisé.
6. Problèmes récurrents observés
- Affirmations excessives
- Validation faible
- Manque de traçabilité
- Limites de défaillance insuffisamment définies
- Écart entre le README et la réalité de l’exécution
- Absence de gouvernance
- Reproductibilité insuffisante
- Flou sur la licence, la responsabilité et les limites d’exploitation
- Discours sur des usages proches du clinique, mais structure de responsabilité fragile
- La CI est davantage orientée vers la validation syntaxique et formelle que vers la validation scientifique.
- Des cas où des mocks et placeholders donnent l’apparence de fonctionnalités réelles ont été relevés.
- Même lorsque la conception locale semble bonne, les paramètres de déploiement par défaut se révèlent souvent risqués.
7. Conclusion finale
- Ce rapport ne dit pas que tout l’open source Bio-IA est « inutile ».
- Le point central est de souligner qu’avoir l’air compétent et être digne de confiance sont deux choses différentes.
- Le principal goulot d’étranglement n’est pas seulement la capacité des modèles, mais plus encore l’absence de validation, de traçabilité, de responsabilité et de gouvernance.
- Plus précisément, la Bio-IA ne pourra devenir un système fiable qu’en améliorant sa structure pour rendre les affirmations et les sorties reproductibles, clarifier les limites et permettre une revue institutionnelle.
8. Résumé en une ligne
- Le principal problème de la Bio-IA n’est pas le manque de capacités, mais le manque de validation et de gouvernance.
Aucun commentaire pour le moment.