- À partir du 24 avril 2026, les données des utilisateurs de Copilot Free, Pro et Pro+ seront utilisées pour l’entraînement et l’amélioration des modèles d’IA, et les utilisateurs pourront refuser via un paramètre d’opt-out
- Les utilisateurs de Business et Enterprise ne sont pas concernés par ce changement, et si un refus avait déjà été configuré, ce choix reste inchangé
- Les données d’entraînement incluront des informations réelles sur les interactions de développement, comme le code saisi, les résultats générés, le contexte autour du curseur et les évaluations de feedback
- Les dépôts d’entreprise, les contenus privés et les données des utilisateurs ayant choisi l’opt-out ne seront pas utilisés pour l’entraînement, et les données ne seront partagées qu’avec les entités affiliées à GitHub, comme Microsoft
- GitHub affirme que les données issues des interactions réelles des développeurs sont essentielles pour améliorer la précision, la sécurité et la capacité de détection des bugs, et insiste sur la participation volontaire des développeurs
Mise à jour de la politique d’utilisation des données d’interaction de GitHub Copilot
- À partir du 24 avril 2026, les données d’interaction des utilisateurs de Copilot Free, Pro et Pro+ (entrées, sorties, extraits de code, contexte associé) seront utilisées pour l’entraînement et l’amélioration des modèles d’IA
- Toutefois, si l’utilisateur choisit l’opt-out, ses données ne seront pas utilisées pour l’entraînement
- Les utilisateurs de Copilot Business et Enterprise ne sont pas concernés par ce changement
- Les utilisateurs ayant déjà refusé la collecte de données conservent leur choix actuel, et leurs données ne seront pas incluses dans l’entraînement sans consentement explicite
- GitHub indique que ce changement est conforme aux pratiques standard du secteur et qu’il contribuera à améliorer la précision, la sécurité et la capacité de détection des bugs du modèle
- Les utilisateurs peuvent modifier leur participation à tout moment dans la section Privacy de la page des paramètres
Pourquoi l’entraînement sur des données réelles est nécessaire
- Les premiers modèles Copilot ont été construits à partir de données publiques et d’échantillons de code préparés manuellement
- L’entraînement a ensuite intégré les données d’interaction des employés de Microsoft, et des améliorations significatives ont été constatées, notamment une hausse du taux d’acceptation (acceptance rate) dans plusieurs langages de programmation
- Sur cette base, GitHub a décidé d’inclure les données d’interaction réelles des développeurs dans l’entraînement afin de refléter une plus grande diversité de cas d’usage réels
Données collectées et utilisées
- Les données pouvant être utilisées pour l’entraînement du modèle comprennent :
- les résultats générés que l’utilisateur a acceptés ou modifiés
- les extraits de code et contenus de requêtes saisis dans Copilot
-
Contexte du code autour du curseur
- les commentaires et contenus documentaires rédigés par l’utilisateur
-
Noms de fichiers, structure du dépôt et schémas de navigation
- les interactions avec les fonctionnalités de Copilot (chat, suggestions inline, etc.)
- les retours sur les suggestions (j’aime / je n’aime pas)
Données non incluses dans l’entraînement
- Les données suivantes ne seront pas utilisées pour l’entraînement du modèle :
- les données d’interaction de Copilot Business, Enterprise et des dépôts appartenant à une entreprise
- les données des utilisateurs ayant choisi l’opt-out
- les contenus des issues, discussions et dépôts inactifs (private at rest)
- toutefois, lors de l’utilisation de Copilot, le code des dépôts privés peut être traité pour exécuter le service et, en l’absence d’opt-out, peut être inclus dans l’entraînement
Portée du partage des données et de la sécurité
- Les données collectées peuvent être partagées avec les entités affiliées à GitHub (par exemple Microsoft)
- En revanche, elles ne seront pas partagées avec des fournisseurs tiers de modèles d’IA ni avec des prestataires de services externes
- GitHub souligne que les progrès du développement assisté par l’IA dépendent des données issues des interactions réelles des développeurs, et que les données des employés de Microsoft et GitHub sont déjà utilisées pour l’entraînement des modèles
Choix de l’utilisateur et impact
- Si l’utilisateur accepte de fournir ses données, le modèle pourra s’améliorer en matière de compréhension des workflows de développement, de suggestions de code plus précises et plus sûres et de renforcement de la détection préventive des bugs
- Même sans participation, les fonctionnalités IA existantes de Copilot resteront disponibles
- GitHub indique accueillir favorablement la participation volontaire afin d’améliorer la qualité pour l’ensemble de la communauté des développeurs, et les questions connexes peuvent être consultées sur la page de FAQ et de discussion communautaire
1 commentaires
Réactions sur Hacker News
Dans les paramètres GitHub, l’option « Allow GitHub to use my data for AI model training » peut être activée ou désactivée
Mais c’est assez ridicule de la présenter comme un « accès à une fonctionnalité »
Il y a quelque chose d’ironique à présenter le fait de donner ses données gratuitement comme un avantage
Ce n’est pas aussi confus que la case « public access prevention » quand on crée un bucket GCS
Je ne l’utilise pas volontairement sur mon compte personnel, donc je ne comprends pas pourquoi il reste une trace
En réalité, je cède mes données, mais c’est formulé comme si je perdais quelque chose
GitHub a annoncé qu’à partir du 24 avril, les données d’interaction de GitHub Copilot seraient utilisées pour l’entraînement de l’IA
L’option est activée par défaut, il faut donc la désactiver soi-même
Lien vers la page de paramètres
Je me demande si c’est aussi activé par défaut pour les comptes business. Si c’est le cas, c’est une politique assez suspecte
Ne pas mettre de lien de désactivation dans le billet de blog, ce n’est pas très correct
Pour la désactiver manuellement, il faut aller ici : ce chemin → Privacy → « Allow GitHub to use my data for AI model training » → Disabled
les données des clients entreprises ne sont pas utilisées pour l’entraînement selon les contrats, et seuls les utilisateurs individuels peuvent contrôler ce paramètre
Il existe des politiques internes qui interdisent d’utiliser le code client pour l’entraînement
Copilot n’a aucun moyen d’ignorer les fichiers sensibles comme les clés API ou les mots de passe
Dès qu’on ouvre l’IDE, ce type d’information peut être envoyé à Microsoft
Lien vers la discussion associée
Mais il existe deux paramètres d’exception, et aucun des deux ne fonctionne
Même quand on ouvre une PR, seul un bot répond, aucun humain ne regarde
En plus, Gemini 3 refuse parfois de générer du code lors du refactoring de code open source s’il estime que cela va à l’encontre de l’intention du développeur d’origine
Pour des utilisateurs payants, la valeur par défaut devrait être opt-in et non opt-out
Je ne comprends pas comment Mario Rodriguez de GitHub (@mariorod) a pu prendre ce type de décision
Depuis GitHub et l’ère de l’IA, j’ai déplacé tout mon code vers des dépôts git privés sur mes propres serveurs
Je n’ai plus aucune raison de me poser des questions sur les licences open source
Il est hors de question que mon code serve à l’entraînement d’une IA commerciale
Si on veut vraiment faire de l’open source sérieusement, il est temps de migrer vers Codeberg
Je ne fais plus que de la maintenance sur mes anciens projets open source, et je ne publie les nouveaux que sous forme de SaaS ou de binaires
En revanche, je contribue à des projets de langages et d’OS, ce qui me fait ressentir le besoin de réentraîner les modèles
Dans l’UE, je me demande quelle est la base juridique d’une telle politique
Les données collectées peuvent contenir des informations personnelles identifiables (PII), et au regard du RGPD,
il faut un « consentement volontaire et explicite »
Si j’ai mis mon numéro de téléphone dans une ligne de code pour un test et que cela est transmis à Copilot, je pourrais envisager une action en justice
Dire que « cette approche est conforme aux standards du secteur », c’est au fond la logique du « c’est acceptable parce que les autres le font aussi »
Au final, GitHub donne l’impression de vouloir conserver l’intégralité du codebase de tous ses utilisateurs
Il est indiqué que les données utilisées par Copilot peuvent être partagées avec l’ensemble des filiales de Microsoft
Je ne vois nulle part d’option pour annuler l’abonnement Copilot
Même sur la page de facturation mobile, elle n’apparaît pas
D’après la documentation officielle,
si l’on a obtenu l’accès gratuit en tant qu’étudiant, enseignant ou mainteneur open source, il est indiqué qu’on ne peut pas l’annuler
Cela dit, GitHub n’a pas vraiment essayé de cacher ce changement, et a expliqué publiquement la procédure d’opt-out
Cela ressemble à un dark pattern très classique
Sur l’application Android, il est déjà difficile de trouver la page de paramètres, et en plus elle ne fonctionne pas correctement