- Face à une série récente de pannes de service liées à l’utilisation d’outils de codage IA, Amazon a mis en place une procédure d’approbation préalable par un ingénieur senior pour toute modification de code assistée par l’IA
- Selon une note interne, la cause des incidents serait liée à de « nouveaux usages de la GenAI dont les bonnes pratiques et garde-fous ne sont pas encore totalement établis »
- Ce mois-ci, le site web d’Amazon et son application de shopping ont été hors service pendant environ 6 heures, empêchant les clients de finaliser des transactions, consulter les informations de leur compte ou vérifier les prix, à cause du déploiement d’un code logiciel erroné
- Côté AWS, l’assistant de codage IA Kiro a lui aussi provoqué une panne de 13 heures en supprimant puis recréant un environnement, parmi au moins deux incidents liés à l’IA signalés
- Le risque opérationnel lié à l’usage d’outils de codage IA en production s’étant concrétisé, une mesure immédiate impose désormais aux ingénieurs junior et de niveau intermédiaire d’obtenir la validation d’un ingénieur senior pour tout changement assisté par l’IA
Réunion interne chez Amazon et mesures de réponse
- La division e-commerce d’Amazon a convoqué une grande réunion d’ingénierie pour analyser les interruptions de service successives survenues récemment
- L’ordre du jour comprenait des incidents liés à l’utilisation d’outils de codage IA
- Une note de briefing interne indique qu’au cours des derniers mois, les incidents à « haut rayon d’impact (high blast radius) » se sont multipliés, et que les « modifications assistées par Gen-AI » ont été citées comme facteur majeur
- Le document précise que des « cas d’usage GenAI nouveaux, pas encore totalement établis » ont été identifiés comme facteur contributif
- Dans un e-mail, le vice-président senior Dave Treadwell a déclaré que « la disponibilité récente du site et de l’infrastructure n’avait pas été bonne »
Exemples de pannes liées à l’IA
- Le site web d’Amazon et son application de shopping ont subi une interruption d’environ 6 heures au début du mois, due à un « déploiement de code logiciel erroné »
- Les clients n’ont alors pas pu finaliser leurs achats, consulter les informations de leur compte ni vérifier le prix des produits
- Un autre problème est également survenu chez AWS lors de l’utilisation de l’assistant de codage IA Kiro
- Mi-décembre, Kiro a décidé de « supprimer puis recréer » un environnement, provoquant une interruption de 13 heures du service de calcul des coûts
- Amazon a décrit cet incident comme un « événement très limité, cantonné à un seul service dans certaines zones de Chine continentale »
- Amazon a ajouté que le second incident « n’avait eu aucun impact sur les services AWS destinés aux clients »
Nouvelle procédure d’approbation et amélioration opérationnelle
- Treadwell prévoit de discuter des causes des problèmes et des mesures correctives à court terme lors de la réunion hebdomadaire « This Week in Stores Tech (TWiST) »
- Cette réunion, auparavant facultative, est désormais fortement recommandée à l’ensemble du personnel
- Désormais, toute modification de code assistée par l’IA effectuée par des ingénieurs junior ou de niveau intermédiaire devra être approuvée et signée par un ingénieur senior
- Amazon présente cette revue comme faisant partie « du cours normal des activités » et affirme viser une amélioration continue
Polémique sur les réductions d’effectifs et la hausse des incidents
- Le Financial Times rapporte que certains ingénieurs estiment que les incidents de niveau « Sev2 » — des pannes intermédiaires nécessitant une réponse rapide — ont augmenté après les réductions d’effectifs
- Amazon a mené plusieurs vagues de restructuration ces dernières années et a supprimé 16 000 postes corporate rien qu’en janvier 2026
- L’entreprise rejette toutefois l’idée que les réductions d’effectifs soient à l’origine de l’augmentation des pannes
Orientation future
- Amazon formalise des revues régulières de la disponibilité de son site web et de ses performances opérationnelles
- L’entreprise poursuit en parallèle le renforcement de l’usage sûr des outils de codage IA et des dispositifs de prévention des pannes
- Cette décision est perçue comme un exemple qui remet en lumière l’importance des procédures de vérification humaine à mesure que l’adoption de l’IA s’accélère
Aucun commentaire pour le moment.