Rapport d’audit open source Bio-IA 2026 : après examen de 10 projets, « la plupart fonctionnaient, mais il était difficile de leur faire confiance »

(flamehaven.space)

2 points par flamehaven01 2026-03-25 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Vue d’ensemble

Ce rapport rassemble les résultats d’un audit mené, en mars 2026, sur 10 dépôts Bio-IA et d’automatisation scientifique adjacente à forte visibilité.
La sélection n’a pas été faite au hasard, mais selon les stars GitHub, la fréquence des discussions techniques et l’exposition réelle dans l’écosystème.
L’audit s’est déroulé en deux étapes : 1) revue technique du code — structure du repo, points d’entrée, exécution ; 2) notation avec STEM-AI v1.0.4 pour évaluer l’intégrité de la documentation, le code, les tests, la gouvernance, etc.
Conclusion : la plupart sont exécutables. Mais ils ne sont pas encore dignes de confiance. L’absence de gouvernance montre les limites de la Bio-IA.

1. État actuel de la Bio-IA en 2026

Forte augmentation des outils Bio-IA basés sur les LLM.
Le hype autour des agents, des skills et des wrappers d’automatisation se propage aussi rapidement.
Les performances apparentes et l’utilité progressent.
Mais les mécanismes de validation manquent.
Les responsabilités sont floues.
C’est particulièrement risqué dans des domaines à haut risque comme la découverte de médicaments.
En bref, la validation et la gouvernance accusent un retard bien plus important que la diffusion des capacités.

2. Périmètre de l’audit

10 projets ont été retenus.
Critères : visibilité, influence, exposition réelle, fréquence des discussions, centralité.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills

3. Méthode d’audit

L’audit s’est déroulé en deux phases.
Phase 1. Technical Code Audit
- Vérification de la structure du dépôt.
- Vérification des points d’entrée.
- Vérification de la couche d’orchestration.
- Traçage des chemins d’exécution.
- Vérification des chemins de sortie.
- Inspection directe des fichiers clés.
- Comparaison entre les affirmations du README et le code réel.
- Autrement dit, l’examen a porté moins sur « ce qui est écrit comme promesse » que sur « ce que le code fait réellement ».
Phase 2. Notation STEM-AI v1.0.4
- Évaluation S1.
- Vérification du README et de l’intégrité documentaire.
- Évaluation S3.
- Vérification de la substance du code, des tests, de la discipline de modification et des dispositifs d’intégrité biologique.
- En d’autres termes, il ne s’agit pas d’une impression générale, mais d’une notation fondée sur une vérification structurelle.
Principes d’audit
- Il ne s’agit pas d’une reproduction dynamique exhaustive de l’ensemble des dépôts.
- À la place, l’audit se concentre sur les parties directement liées aux affirmations essentielles.
- Les zones à risque élevé ou contradictoires font l’objet d’un examen approfondi.
- Principe clé : la surface d’exécution prime sur le README. En cas de conflit entre documentation et code, le jugement est basé sur l’exécution, non sur la documentation.
- En ce sens, cet audit est plus proche d’un diagnostic structurel que d’un benchmark de reproductibilité.

4. Barème de notation

T0 : confiance non établie. Même si le système s’exécute, il est difficile de le considérer comme fiable.
T1 : certains éléments structurels existent, mais la confiance reste insuffisante. Niveau exploration ou référence.
T2 : progression significative, mais encore insuffisante pour un pilote supervisé.
T3 : seuil minimal permettant d’envisager un pilote supervisé.
T4 : niveau à partir duquel on peut envisager un lien avec des environnements à responsabilité de résultat plus élevée.
Le rapport retient T3 comme seuil minimal pour un pilote supervisé, et T4 comme seuil minimal pour un environnement à responsabilité de résultat plus forte.

5. Résultats

Résultats par repo
- AI-Scientist — 48 points, T1
- Biomni — 17 points, T0
- BioAgents — 30 points, T0
- BioClaw — 29 points, T0
- CellAgent — 15 points, T0
- ClawBio — 63 points, T2
- claude-scientific-skills — 24 points, T0
- LabClaw — 20 points, T0
- SciAgent-Skills — 32 points, T0
- OpenClaw-Medical-Skills — 22 points, T0
Signification des résultats
- 8 sur 10 n’établissent pas la confiance.
- 1 présente quelques éléments structurels, mais reste insuffisant.
- 1 est le meilleur du lot, mais n’atteint toujours pas le seuil minimal pour un pilote.
- Aucun n’atteint T3 ou plus. Autrement dit, aucun dépôt ne franchit le seuil minimal requis pour un pilote supervisé.

6. Problèmes récurrents observés

Affirmations excessives
Validation faible
Manque de traçabilité
Limites de défaillance insuffisamment définies
Écart entre le README et la réalité de l’exécution
Absence de gouvernance
Reproductibilité insuffisante
Flou sur la licence, la responsabilité et les limites d’exploitation
Discours sur des usages proches du clinique, mais structure de responsabilité fragile
La CI est davantage orientée vers la validation syntaxique et formelle que vers la validation scientifique.
Des cas où des mocks et placeholders donnent l’apparence de fonctionnalités réelles ont été relevés.
Même lorsque la conception locale semble bonne, les paramètres de déploiement par défaut se révèlent souvent risqués.

7. Conclusion finale

Ce rapport ne dit pas que tout l’open source Bio-IA est « inutile ».
Le point central est de souligner qu’avoir l’air compétent et être digne de confiance sont deux choses différentes.
Le principal goulot d’étranglement n’est pas seulement la capacité des modèles, mais plus encore l’absence de validation, de traçabilité, de responsabilité et de gouvernance.
Plus précisément, la Bio-IA ne pourra devenir un système fiable qu’en améliorant sa structure pour rendre les affirmations et les sorties reproductibles, clarifier les limites et permettre une revue institutionnelle.

8. Résumé en une ligne

Le principal problème de la Bio-IA n’est pas le manque de capacités, mais le manque de validation et de gouvernance.

Rapport d’audit open source Bio-IA 2026 : après examen de 10 projets, « la plupart fonctionnaient, mais il était difficile de leur faire confiance »

Vue d’ensemble

1. État actuel de la Bio-IA en 2026

2. Périmètre de l’audit

3. Méthode d’audit

4. Barème de notation

5. Résultats

6. Problèmes récurrents observés

7. Conclusion finale

8. Résumé en une ligne

À lire aussi

Aucun commentaire pour le moment.