- Une fonctionnalité de Code Review en aperçu de recherche a été lancée : elle mobilise une équipe multi-agents sur chaque PR afin de détecter en profondeur les bugs que les humains repèrent difficilement
- Avec une hausse de 200 % de la production de code des ingénieurs d’Anthropic sur l’année écoulée, la revue de code est devenue un goulot d’étranglement, et de nombreuses PR se limitaient à une simple lecture en diagonale plutôt qu’à une revue approfondie
- Avant l’adoption, seulement 16 % des PR recevaient de véritables commentaires de revue ; après l’adoption, ce chiffre est monté à 54 %, tandis que l’approbation des PR reste assurée par des humains
- Sur les PR volumineuses (plus de 1 000 lignes), 84 % contiennent des éléments détectés, avec en moyenne 7,5 problèmes signalés, et un taux de faux positifs inférieur à 1 %
- Le coût de la revue est facturé selon l’usage de tokens, pour une moyenne de 15 à 25 $ par PR, avec des fonctions de contrôle des coûts comme des plafonds mensuels par organisation et des réglages par dépôt
Le problème du goulot d’étranglement de la revue de code
- La production de code par ingénieur chez Anthropic a augmenté de 200 % sur l’année écoulée, faisant de la revue de code un goulot d’étranglement du processus de développement
- Les clients signalaient le même problème chaque semaine : en situation de surcharge, de nombreuses PR ne recevaient qu’une lecture rapide au lieu d’une revue approfondie
- Développé comme une option plus rigoureuse et plus coûteuse que l’open source Claude Code GitHub Action, afin d’attribuer un relecteur fiable à chaque PR
- Avant l’adoption, seuls 16 % des PR recevaient de véritables commentaires de revue, contre 54 % après
- L’approbation des PR reste assurée par des humains ; l’objectif est de réduire l’écart afin que les relecteurs couvrent réellement le code livré
Fonctionnement
- Lorsqu’une PR est ouverte, une équipe d’agents est envoyée pour rechercher des bugs en parallèle
- Chaque agent vérifie les bugs afin de filtrer les faux positifs et les classer par gravité
- Les résultats sont transmis dans la PR sous forme d’un unique commentaire récapitulatif à fort signal et de commentaires inline sur des bugs précis
- L’ampleur de la revue s’ajuste automatiquement à la taille de la PR : davantage d’agents et une analyse plus poussée pour les changements importants et complexes, un passage léger pour les changements mineurs
- Dans les tests, la durée moyenne d’une revue est d’environ 20 minutes
Cas d’usage réels
- Après plusieurs mois d’exploitation en interne, sur les grandes PR (plus de 1 000 lignes), 84 % contenaient des éléments détectés, avec en moyenne 7,5 problèmes signalés
- Sur les petites PR (moins de 50 lignes), 31 % contenaient des éléments détectés, avec en moyenne 0,5 problème signalé
- Les ingénieurs étaient globalement d’accord avec les détections, et la part marquée comme faux positifs est inférieure à 1 %
- Dans un cas, une modification d’une seule ligne dans un service de production présentait un diff qui aurait normalement obtenu une approbation rapide, mais Code Review l’a signalée comme critique
- Ce changement pouvait déclencher un mode d’échec susceptible de casser l’authentification du service ; dans le diff, cela passait facilement inaperçu, mais une fois signalé, le problème devenait évident
- Le correctif a été appliqué avant le merge, et l’ingénieur concerné a indiqué qu’il ne l’aurait probablement pas repéré seul
- Dans l’open source middleware de TrueNAS, sur une PR de refactorisation du chiffrement ZFS, Code Review a détecté un bug préexistant dans du code adjacent
- Un problème d’incompatibilité de type qui effaçait silencieusement le cache de clés de chiffrement à chaque synchronisation
- Un problème latent dans le code touché par la PR, du genre qu’un relecteur humain parcourant le change set n’irait pas immédiatement chercher
Coûts et contrôle
- Solution optimisée pour la profondeur d’analyse, donc plus coûteuse que des solutions légères comme Claude Code GitHub Action
- La revue est facturée selon l’usage de tokens, avec une moyenne de 15 à 25 $ selon la taille et la complexité de la PR
- Options d’administration pour contrôler les coûts et l’usage :
- Plafond mensuel par organisation : définir le total des dépenses mensuelles sur l’ensemble des revues
- Contrôle par dépôt : activer la revue uniquement sur les dépôts sélectionnés
- Tableau de bord analytique : suivre le nombre de PR relues, le taux d’acceptation et le coût total des revues
Pour commencer
- Disponible en aperçu de recherche (bêta) pour les offres Team et Enterprise
- Les administrateurs peuvent activer Code Review dans les paramètres de Claude Code, installer l’application GitHub, puis choisir les dépôts sur lesquels exécuter les revues
- Une fois l’option activée, les développeurs bénéficient d’une revue automatique sur les nouvelles PR, sans configuration supplémentaire
Aucun commentaire pour le moment.