Atlassian active par défaut l’utilisation des données clients pour l’entraînement de l’IA
(letsdatascience.com)- Les métadonnées clients et les contenus in-app des produits Atlassian Cloud comme Jira et Confluence seront utilisés par défaut à partir du 17 août 2026 pour l’entraînement de Rovo et Rovo Dev
- Les paramètres par défaut varieront selon l’offre : sur Free, Standard et Premium, la contribution des métadonnées sera toujours activée, tandis que seule l’offre Enterprise conservera la désactivation par défaut des métadonnées et des données in-app ainsi que le contrôle associé
- Les données collectées incluent des métadonnées comme le score de lisibilité, les story points et les valeurs de SLA, ainsi que des données in-app comme le corps des pages, les descriptions de tickets, les commentaires et les noms de workflows
- Des mesures de protection comme la suppression des identifiants directs et l’agrégation seront appliquées, mais les données de contribution pourront être conservées jusqu’à 7 ans ; après suppression ou opt-out, les données in-app seront retirées sous 30 jours et les modèles réentraînés sous 90 jours
- Ce changement de politique rompt avec la position antérieure de non-utilisation et modifie la provenance des données des outils de travail ainsi que le niveau de contrôle selon le prix, avec un impact accru sur les décisions de confidentialité, de gouvernance et de conformité
Aperçu du changement
- Atlassian prévoit, à partir du 17 août 2026, d’utiliser par défaut pour l’entraînement de l’IA les métadonnées clients et les contenus in-app de Jira, Confluence et d’autres produits Atlassian Cloud
- Les fonctionnalités IA visées sont explicitement Rovo et Rovo Dev
- L’ampleur de l’impact est estimée à environ 300 000 clients
- Avec la modification de la politique de contribution des données, les paramètres par défaut varieront selon l’offre
- Les offres inférieures ne permettent pas de désactiver la collecte des métadonnées
- L’offre Enterprise conserve le contrôle sur la collecte des métadonnées et des données in-app
- La durée de conservation des données de contribution collectées pourra aller jusqu’à 7 ans
- Après suppression ou opt-out, les données in-app seront retirées sous 30 jours
- Les modèles entraînés à partir de ces données seront réentraînés sous 90 jours pour retirer cette contribution
Détails techniques
- Atlassian distingue les données collectées en deux catégories : métadonnées et données in-app
- Les métadonnées incluent des signaux désidentifiés
- Les données in-app incluent du contenu généré par les utilisateurs
- Détail des éléments inclus dans la catégorie des métadonnées
- Scores de lisibilité et de complexité
- Classification des tâches
- Indicateurs de similarité sémantique
- Story points
- Dates de fin de sprint
- Valeurs de SLA de Jira Service Management
- Détail des éléments inclus dans la catégorie des données in-app
- Titres et corps de pages dans Confluence
- Titres, descriptions et commentaires des tickets Jira
- Noms d’emojis personnalisés
- Noms de statuts personnalisés
- Noms de workflows
- Atlassian précise l’application, avant l’entraînement, de la suppression des identifiants directs, de l’agrégation des données et d’autres mesures de protection
Paramètres par défaut selon l’offre et exclusions
- Les paramètres par défaut sont déterminés en fonction de l’offre active la plus élevée de l’organisation
- Clients Free et Standard
-
Contribution des métadonnées toujours activée
- Impossible de désactiver la collecte des métadonnées
- La contribution des données in-app est activée par défaut, mais peut être modifiée
- Clients Premium
- Contribution des métadonnées toujours activée
- La contribution des données in-app est désactivée par défaut
- Clients Enterprise
- Les métadonnées et les données in-app sont toutes deux désactivées par défaut
- Opt-out possible pour les métadonnées
- Groupes de clients explicitement exclus de l’ensemble de la collecte
- Clients utilisant les customer-managed encryption keys
- Clients utilisant Atlassian Government Cloud
- Clients utilisant Atlassian Isolated Cloud
- Clients soumis à des obligations HIPAA
-
Contexte et importance
- Cette politique marque un changement de cap par rapport à la position précédente
- Atlassian indiquait auparavant ne pas utiliser les données clients pour l’entraînement ou l’amélioration de services IA
- Tendance sectorielle avancée pour expliquer ce changement
- Les fournisseurs SaaS collectent des signaux d’usage interne et des contenus pour amorcer les modèles, les affiner et les évaluer
- En parallèle, ils promettent aussi des analyses fondées sur la désidentification et l’agrégation
- Bénéfices concrets mis en avant par Atlassian
- Amélioration de la pertinence de la recherche
- Meilleurs résumés
- Suggestions de modèles
- Optimisation des workflows agentiques
- Impact du point de vue des praticiens
- Évolution de la provenance des données utilisées par les modèles dans les outils de travail
- Évolution du niveau de contrôle des données selon le prix et des critères de conformité et d’achat
Risques et arbitrages
- La collecte obligatoire des métadonnées pour les clients non Enterprise suscite des inquiétudes en matière de confidentialité et de gouvernance, indépendamment de la suppression des identifiants
- Des télémétries comme les story points et les indicateurs SLA peuvent révéler la structure des projets et des schémas de performance
- La conservation pendant 7 ans de données désidentifiées élargit la surface d’exposition au fil du temps
- Cela crée une charge supplémentaire pour les clients qui exigent des audits sur la conservation longue durée des données
- Une voie d’exclusion existe pour les clients à haute sécurité et ceux utilisant des customer-managed keys
- Mais elle peut nécessiter de passer à une offre plus coûteuse ou à un mode de déploiement spécialisé
Points à surveiller
- Les organisations doivent vérifier leurs tenants Atlassian
- Vérifier l’offre active la plus élevée par tenant
- Identifier les paramètres par défaut de contribution des données
- Mise à jour nécessaire des paramètres d’administration pendant la période de déploiement
- Si un opt-out complet est nécessaire, il faut envisager une migration vers Enterprise ou vers un déploiement isolé
- Points d’attention côté produit
- Il faudra vérifier comment Atlassian met réellement en œuvre la procédure de réentraînement sous 90 jours
- Il faudra vérifier si les fournisseurs de LLM en aval utilisés par Rovo affirment ne pas conserver les entrées
- Si ce modèle se diffuse dans l’ensemble du SaaS d’entreprise, des réactions clients et une surveillance réglementaire sont possibles
Base de l’évaluation
- Ce changement aura un impact concret pour des milliers d’utilisateurs en entreprise et pour les praticiens chargés de la gouvernance des données et de la gestion de la provenance des modèles
- Il ne s’agit pas d’un jalon de modèle de pointe ni d’un jalon réglementaire
- Il est évalué comme un changement de politique produit qui modifie concrètement les pipelines de données des équipes et leurs options de conformité
1 commentaires
Réactions sur Hacker News
J’ai l’impression qu’Atlassian enchaîne les erreurs. J’utilise encore souvent leurs produits, mais je tombe bien trop fréquemment sur des bugs de niveau P0. Les workers Bitbucket auto-hébergés sont particulièrement obsolètes, surtout côté Docker, au point qu’il a fallu empiler les rustines. Dans JIRA, il faut toujours recharger la page pour réordonner de nouveaux tickets, et ça dure depuis des années. Les nouvelles fonctionnalités ajoutées à JIRA et Bitbucket ces dernières années marchaient elles aussi mal. J’ai aussi testé les fonctions IA via l’essai gratuit, et elles ne marchaient pas du tout ; en plus, impossible de résilier en ligne, j’ai dû ouvrir plusieurs tickets au support, et entre-temps le formulaire de contact du support a lui aussi cassé plusieurs fois. Je me demande si cette gravité croissante des pannes fonctionnelles vient de la dette technique, d’une fuite des talents, ou des deux. Quand on regarde la communauté, on voit des centaines voire des milliers de bugs accompagnés de contournements
J’aimerais pouvoir citer une meilleure source, mais l’essentiel est qu’actuellement les clients gratuits comme payants sont inscrits par défaut à la contribution de leurs données pour l’entraînement de l’IA. Cela couvre tout le contenu, comme les pages Confluence et les tickets Jira. La documentation d’assistance Atlassian explique comment désactiver cela, mais sur nos instances ce réglage n’apparaît tout simplement pas
J’ai vu passer une rumeur selon laquelle Anthropic discuterait d’un rachat d’Atlassian, probablement pour les données d’entraînement. Il y a même un post Reddit qui évoque déjà des mouvements de data poisoning
J’ai l’impression que, dans l’enterprise SaaS, le schéma du collecte par défaut plutôt que du consentement explicite devient de plus en plus normalisé. Mais ici, le problème est particulièrement grave, car il ne s’agit pas seulement de métadonnées : cela couvre tout le contenu des applications, et en plus le réglage d’opt-out ne s’affiche même pas. On peut débattre de la politique elle-même, mais ces deux éléments combinés donnent l’impression d’une friction intentionnellement introduite. Il faut aussi distinguer cela du data residency : beaucoup d’acheteurs assimilent l’ancrage régional à une garantie complète de confidentialité, alors qu’en réalité cela ne concerne que le lieu de stockage, pas qui peut accéder aux données ni dans quel but
Je pense que beaucoup d’autres entreprises comme GitHub, Figma, Adobe ou Vercel activent aussi ce type de choses par défaut. Donc, dans la pratique, il vaut sans doute mieux partir du principe que toute entreprise à qui l’on confie ses données peut les utiliser pour l’entraînement de modèles
Si la rumeur du rachat par Anthropic est vraie, Atlassian pourrait être vu comme une occasion d’acheter d’un seul coup un jeu de données à fort signal autour du travail en entreprise
Je me demande si Atlassian inclut aussi le code et le contenu de dépôts Bitbucket privés dans le périmètre de collecte. La formulation de la politique et de la FAQ est ambiguë, et j’aimerais obtenir une réponse claire par oui ou par non
Avant, on disait que si l’on ne payait pas, c’est qu’on était le produit. Maintenant, même les entreprises paient pour devenir elles-mêmes le produit, et c’est encore plus absurde
Je tiens vraiment à souligner que l’option data residency d’Atlassian ne protège pas contre ce problème. Le fait de lier les données à une région précise n’empêche pas qu’elles soient utilisées pour l’entraînement
Du coup, il paraît plus clair encore qu’Atlassian voulait réduire le support de Data Center en mode on-prem