1 points par GN⁺ 2026-03-28 | 1 commentaires | Partager sur WhatsApp
  • À partir du 24 avril 2026, les données des utilisateurs de Copilot Free, Pro et Pro+ seront utilisées pour l’entraînement et l’amélioration des modèles d’IA, et les utilisateurs pourront refuser via un paramètre d’opt-out
  • Les utilisateurs de Business et Enterprise ne sont pas concernés par ce changement, et si un refus avait déjà été configuré, ce choix reste inchangé
  • Les données d’entraînement incluront des informations réelles sur les interactions de développement, comme le code saisi, les résultats générés, le contexte autour du curseur et les évaluations de feedback
  • Les dépôts d’entreprise, les contenus privés et les données des utilisateurs ayant choisi l’opt-out ne seront pas utilisés pour l’entraînement, et les données ne seront partagées qu’avec les entités affiliées à GitHub, comme Microsoft
  • GitHub affirme que les données issues des interactions réelles des développeurs sont essentielles pour améliorer la précision, la sécurité et la capacité de détection des bugs, et insiste sur la participation volontaire des développeurs

Mise à jour de la politique d’utilisation des données d’interaction de GitHub Copilot

  • À partir du 24 avril 2026, les données d’interaction des utilisateurs de Copilot Free, Pro et Pro+ (entrées, sorties, extraits de code, contexte associé) seront utilisées pour l’entraînement et l’amélioration des modèles d’IA
    • Toutefois, si l’utilisateur choisit l’opt-out, ses données ne seront pas utilisées pour l’entraînement
    • Les utilisateurs de Copilot Business et Enterprise ne sont pas concernés par ce changement
  • Les utilisateurs ayant déjà refusé la collecte de données conservent leur choix actuel, et leurs données ne seront pas incluses dans l’entraînement sans consentement explicite
  • GitHub indique que ce changement est conforme aux pratiques standard du secteur et qu’il contribuera à améliorer la précision, la sécurité et la capacité de détection des bugs du modèle
  • Les utilisateurs peuvent modifier leur participation à tout moment dans la section Privacy de la page des paramètres

Pourquoi l’entraînement sur des données réelles est nécessaire

  • Les premiers modèles Copilot ont été construits à partir de données publiques et d’échantillons de code préparés manuellement
  • L’entraînement a ensuite intégré les données d’interaction des employés de Microsoft, et des améliorations significatives ont été constatées, notamment une hausse du taux d’acceptation (acceptance rate) dans plusieurs langages de programmation
  • Sur cette base, GitHub a décidé d’inclure les données d’interaction réelles des développeurs dans l’entraînement afin de refléter une plus grande diversité de cas d’usage réels

Données collectées et utilisées

  • Les données pouvant être utilisées pour l’entraînement du modèle comprennent :
    • les résultats générés que l’utilisateur a acceptés ou modifiés
    • les extraits de code et contenus de requêtes saisis dans Copilot
    • Contexte du code autour du curseur

      • les commentaires et contenus documentaires rédigés par l’utilisateur
    • Noms de fichiers, structure du dépôt et schémas de navigation

      • les interactions avec les fonctionnalités de Copilot (chat, suggestions inline, etc.)
      • les retours sur les suggestions (j’aime / je n’aime pas)

Données non incluses dans l’entraînement

  • Les données suivantes ne seront pas utilisées pour l’entraînement du modèle :
    • les données d’interaction de Copilot Business, Enterprise et des dépôts appartenant à une entreprise
    • les données des utilisateurs ayant choisi l’opt-out
    • les contenus des issues, discussions et dépôts inactifs (private at rest)
      • toutefois, lors de l’utilisation de Copilot, le code des dépôts privés peut être traité pour exécuter le service et, en l’absence d’opt-out, peut être inclus dans l’entraînement

Portée du partage des données et de la sécurité

  • Les données collectées peuvent être partagées avec les entités affiliées à GitHub (par exemple Microsoft)
  • En revanche, elles ne seront pas partagées avec des fournisseurs tiers de modèles d’IA ni avec des prestataires de services externes
  • GitHub souligne que les progrès du développement assisté par l’IA dépendent des données issues des interactions réelles des développeurs, et que les données des employés de Microsoft et GitHub sont déjà utilisées pour l’entraînement des modèles

Choix de l’utilisateur et impact

  • Si l’utilisateur accepte de fournir ses données, le modèle pourra s’améliorer en matière de compréhension des workflows de développement, de suggestions de code plus précises et plus sûres et de renforcement de la détection préventive des bugs
  • Même sans participation, les fonctionnalités IA existantes de Copilot resteront disponibles
  • GitHub indique accueillir favorablement la participation volontaire afin d’améliorer la qualité pour l’ensemble de la communauté des développeurs, et les questions connexes peuvent être consultées sur la page de FAQ et de discussion communautaire

1 commentaires

 
GN⁺ 2026-03-28
Réactions sur Hacker News
  • Dans les paramètres GitHub, l’option « Allow GitHub to use my data for AI model training » peut être activée ou désactivée
    Mais c’est assez ridicule de la présenter comme un « accès à une fonctionnalité »
    Il y a quelque chose d’ironique à présenter le fait de donner ses données gratuitement comme un avantage

    • Au moins, la formulation elle-même n’est pas ambiguë
      Ce n’est pas aussi confus que la case « public access prevention » quand on crée un bucket GCS
    • Même après avoir désactivé toutes les fonctionnalités liées à Copilot, l’utilisation de Copilot Chat s’affiche à 2 %, ce qui est déroutant
      Je ne l’utilise pas volontairement sur mon compte personnel, donc je ne comprends pas pourquoi il reste une trace
    • L’expression « accès à une fonctionnalité » semble beaucoup trop manipulatrice
      En réalité, je cède mes données, mais c’est formulé comme si je perdais quelque chose
    • Peut-être que le « bénéfice », c’est que le modèle sera réentraîné avec mes données et que cela pourra un peu m’aider plus tard
    • Au final, cette « fonctionnalité », c’est juste le fait que mon style de code sera intégré au prochain modèle
  • GitHub a annoncé qu’à partir du 24 avril, les données d’interaction de GitHub Copilot seraient utilisées pour l’entraînement de l’IA
    L’option est activée par défaut, il faut donc la désactiver soi-même
    Lien vers la page de paramètres
    Je me demande si c’est aussi activé par défaut pour les comptes business. Si c’est le cas, c’est une politique assez suspecte

    • J’ai du mal à croire que ce soit activé par défaut
      Ne pas mettre de lien de désactivation dans le billet de blog, ce n’est pas très correct
      Pour la désactiver manuellement, il faut aller ici : ce chemin → Privacy → « Allow GitHub to use my data for AI model training » → Disabled
    • D’après la réponse officielle de la communauté,
      les données des clients entreprises ne sont pas utilisées pour l’entraînement selon les contrats, et seuls les utilisateurs individuels peuvent contrôler ce paramètre
    • Si c’était aussi un opt-in par défaut pour les utilisateurs business, ce serait une violation des politiques de sécurité et de confidentialité
      Il existe des politiques internes qui interdisent d’utiliser le code client pour l’entraînement
    • Il a été confirmé que les données des clients Copilot Business ou Enterprise ne sont pas utilisées pour l’entraînement
    • Le blog précise également que « les utilisateurs Business et Enterprise ne sont pas concernés par ce changement »
  • Copilot n’a aucun moyen d’ignorer les fichiers sensibles comme les clés API ou les mots de passe
    Dès qu’on ouvre l’IDE, ce type d’information peut être envoyé à Microsoft
    Lien vers la discussion associée

    • Gemini CLI bloque les variables d’environnement contenant des chaînes comme « AUTH »
      Mais il existe deux paramètres d’exception, et aucun des deux ne fonctionne
      Même quand on ouvre une PR, seul un bot répond, aucun humain ne regarde
      En plus, Gemini 3 refuse parfois de générer du code lors du refactoring de code open source s’il estime que cela va à l’encontre de l’intention du développeur d’origine
    • En réalité, le vrai problème, c’est aussi de conserver des fichiers sensibles dans le dépôt
    • Ce problème ne se limite pas à Copilot, on le retrouve aussi dans une issue OpenAI Codex
    • Il me semble me souvenir qu’on pouvait définir des ignore path au niveau Enterprise ou organisation
  • Pour des utilisateurs payants, la valeur par défaut devrait être opt-in et non opt-out
    Je ne comprends pas comment Mario Rodriguez de GitHub (@mariorod) a pu prendre ce type de décision

    • Quand on lit son README, on voit que ses principaux centres d’intérêt sont le « narrative shaping » et les changements dans le « How we Work », donc cette approche semble s’inscrire dans cette continuité
  • Depuis GitHub et l’ère de l’IA, j’ai déplacé tout mon code vers des dépôts git privés sur mes propres serveurs
    Je n’ai plus aucune raison de me poser des questions sur les licences open source
    Il est hors de question que mon code serve à l’entraînement d’une IA commerciale
    Si on veut vraiment faire de l’open source sérieusement, il est temps de migrer vers Codeberg

    • J’ai pris la même décision
      Je ne fais plus que de la maintenance sur mes anciens projets open source, et je ne publie les nouveaux que sous forme de SaaS ou de binaires
      En revanche, je contribue à des projets de langages et d’OS, ce qui me fait ressentir le besoin de réentraîner les modèles
    • GitHub a probablement une clause d’exception de licence dans ses TOS pour l’exploitation du service
    • Aujourd’hui, j’auto-héberge Forgejo, je fais tourner les runners sur mon propre matériel, et j’en suis très satisfait
  • Dans l’UE, je me demande quelle est la base juridique d’une telle politique
    Les données collectées peuvent contenir des informations personnelles identifiables (PII), et au regard du RGPD,
    il faut un « consentement volontaire et explicite »

    • Le RGPD interdit les valeurs par défaut en opt-out
      Si j’ai mis mon numéro de téléphone dans une ligne de code pour un test et que cela est transmis à Copilot, je pourrais envisager une action en justice
    • Dans mes paramètres GitHub, cette option n’apparaît même pas, donc je me demande si cela ne concerne que les utilisateurs américains
  • Dire que « cette approche est conforme aux standards du secteur », c’est au fond la logique du « c’est acceptable parce que les autres le font aussi »

    • Pourtant, Anthropic fonctionne en opt-in, et propose même une réduction quand on l’active
  • Au final, GitHub donne l’impression de vouloir conserver l’intégralité du codebase de tous ses utilisateurs
    Il est indiqué que les données utilisées par Copilot peuvent être partagées avec l’ensemble des filiales de Microsoft

  • Je ne vois nulle part d’option pour annuler l’abonnement Copilot
    Même sur la page de facturation mobile, elle n’apparaît pas
    D’après la documentation officielle,
    si l’on a obtenu l’accès gratuit en tant qu’étudiant, enseignant ou mainteneur open source, il est indiqué qu’on ne peut pas l’annuler

  • Cela dit, GitHub n’a pas vraiment essayé de cacher ce changement, et a expliqué publiquement la procédure d’opt-out

    • Mais l’e-mail ne contient pas de lien direct, ni même le nom exact du paramètre
      Cela ressemble à un dark pattern très classique
    • En pratique, l’opt-out n’est pas si simple
      Sur l’application Android, il est déjà difficile de trouver la page de paramètres, et en plus elle ne fonctionne pas correctement