6 points par GN⁺ 2026-03-28 | 3 commentaires | Partager sur WhatsApp
  • GitHub prévoit d’utiliser le code et les données des dépôts privés pour l’entraînement de modèles d’IA
  • Les utilisateurs doivent refuser explicitement (opt-out) avant le 24 avril pour empêcher l’utilisation de leurs données
  • En l’absence de refus, des informations de projets privés peuvent être incluses dans les données d’entraînement
  • Cette politique est liée à la collecte de données visant à améliorer les fonctionnalités d’IA comme GitHub Copilot
  • Les développeurs doivent vérifier leurs paramètres afin de protéger la confidentialité et la sécurité du code

Changement de politique de GitHub sur les données d’entraînement de l’IA

  • GitHub a modifié sa politique afin de pouvoir inclure les données des dépôts privés dans l’entraînement pour améliorer ses modèles d’IA
    • Si l’utilisateur ne refuse pas séparément, les données seront utilisées automatiquement
    • Le refus peut être effectué directement depuis la page des paramètres de GitHub
  • Les données d’entraînement peuvent inclure du code privé, des métadonnées de projet et l’historique des commits
  • Cette mesure est présentée comme destinée à améliorer la qualité de Copilot et d’autres fonctionnalités d’IA

Impact pour les développeurs

  • Si les dépôts privés sont utilisés pour l’entraînement, il existe un risque d’exposition de code sensible ou de logique interne
  • Les entreprises comme les développeurs individuels doivent examiner leurs politiques de sécurité et effectuer la procédure d’opt-out
  • Ce changement chez GitHub pourrait relancer le débat sur la transparence des données d’entraînement de l’IA et le contrôle laissé aux utilisateurs

3 commentaires

 
runableapp 2026-03-30

Je vois ce message s’afficher en continu sur GitHub depuis quelques jours,

Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.

J’ai choisi l’opt-out, mais j’ai l’impression qu’ils utilisaient déjà l’IA depuis longtemps.

 
github88 2026-03-29

C’est une fake news vraiment trop grossière.

 
GN⁺ 2026-03-28
Réactions sur Hacker News
  • On le dit depuis 2023. Si des informations stockées dans une base de données sont accessibles librement par l’entreprise, alors cette entreprise finira par modifier ses conditions d’utilisation pour pouvoir les exploiter comme données d’entraînement pour l’IA. L’incitation est trop forte, donc ça paraît inévitable.

    • C’est vrai. Même une entreprise éthique peut voir la situation changer si elle est rachetée. Je travaille dans une boîte du S&P 500, et aujourd’hui l’accès à la production est strictement contrôlé. Mais si quelqu’un comme Larry, Zuck ou Bezos rachète l’entreprise, impossible de savoir ce qui se passera.
    • « D’abord on le fait, ensuite on s’excuse » va sans doute devenir la règle générale. Ils peuvent très bien le faire en pratique sans même modifier les ToS. Amazon dispose déjà d’un énorme jeu de données d’entraînement interne.
    • Je crains que MS n’utilise pour l’entraînement IA le code que j’écris sur mon laptop. La méfiance des utilisateurs Linux, qui ressemblait autrefois à une théorie du complot, commence de plus en plus à me sembler compréhensible.
    • Tu as raison. C’est frustrant que les gens n’arrivent pas à le considérer comme une évidence. Stallman avait raison depuis le début.
    • Tant que vous ne possédez pas vous-même les clés, ce n’est pas du chiffrement de bout en bout. Il faut arrêter les absurdités.
  • En affirmant que « ce n’est pas le cas », quelqu’un partage le lien vers le blog officiel de GitHub. Les utilisateurs Free, Pro et Pro+ de Copilot verront leurs données d’utilisation servir à l’entraînement des modèles s’ils ne se désinscrivent pas. Les abonnés Business ou Pro ne sont pas inclus dans l’entraînement. Si vous n’utilisez pas Copilot, vous n’êtes pas concerné. Si vous vous désinscrivez dès maintenant, le réglage restera en place plus tard.

    • D’après le blog, les données collectées incluent les entrées, les sorties, le contexte du code, les commentaires, la structure des fichiers, les retours, etc. Mais ce n’est pas formulé comme « si vous souhaitez participer », c’est formulé comme « si vous ne souhaitez pas participer ». Autrement dit, il faut refuser explicitement la participation, et c’est cela qui pose problème. Il est injuste que je doive faire un effort pour protéger ma vie privée.
    • Le découpage des formulations est bien trop ambigu. Si Copilot utilise les entrées, les sorties et le contexte du code pour l’entraînement, cela veut dire qu’au final une partie du code d’un repo privé est utilisée comme donnée d’entraînement.
    • Le titre comme la réponse sont trop généraux. À partir du 24 avril, les repos privés des utilisateurs qui ne sont pas en Business/Pro seront inclus dans l’entraînement par défaut. Tous les repos ne sont pas concernés, mais le choix des mots doit être prudent. « No we won’t » était moins adapté que « ce n’est pas totalement exact ».
    • Ça reste malgré tout un problème grave. Si le code entre dans l’entraînement d’un LLM, alors il n’est plus privé. Écrire « private repo » puis glisser en petits caractères dans les conditions qu’il peut être rendu public, c’est mentir.
    • En droit de l’UE, un système d’opt-out n’est pas considéré comme un consentement valable. Je me demande comment ils comptent gérer ça.
  • Le titre de cette actualité est susceptible d’induire en erreur. GitHub n’entraîne pas sur le repo privé lui-même, mais sur les données d’interaction générées pendant l’usage de Copilot. Si vous n’utilisez pas Copilot, vous n’êtes pas concerné. Cela dit, mieux vaut quand même le désactiver.

    • Mais que se passe-t-il si l’un de mes contributeurs utilise Copilot ?
    • C’est aussi comme ça que je l’ai compris, mais s’ils entraînent sur les entrées, rien ne garantit qu’ils n’entraînent pas en pratique sur le code lui-même. Devant un tribunal, ils pourraient prétendre n’avoir entraîné que sur les « entrées ».
    • Ce genre de distinction fine finit par ne plus avoir de sens. Même si c’est vrai aujourd’hui, ça peut changer discrètement plus tard. Les développeurs pensent comprendre le système, mais au final ils continuent de se faire avoir.
  • Plus précisément, l’opt-out concerne le paramètre d’entraînement de Copilot. Jusqu’ici, seuls les repos publics étaient en opt-in, mais à partir du 24 avril les repos privés seront aussi inclus par défaut. Si vous utilisez Copilot sur des repos privés, mieux vaut vous désinscrire via github.com/settings/copilot. Ça prend 30 secondes.

    • Ça ne devrait pas prendre 30 secondes, mais 0 seconde. Mon temps m’appartient, et je n’ai aucune raison d’en dépenser pour protéger ma vie privée.
    • Dire « ça prend 30 secondes » montre qu’on ne comprend pas la réalité. Il faut fouiller HN tous les jours pour tomber sur ce genre d’info. Au final, il faut 240 heures pour apprendre qu’un interrupteur existe.
    • Avant, ce n’était pas de l’opt-in. À l’époque, ils n’utilisaient pas les données d’usage pour l’entraînement. Ils faisaient seulement de l’entraînement en interne, ce qui aurait permis une amélioration des performances. Il y a des détails dans ce billet de blog.
    • Le paramètre n’apparaît pas chez tous les utilisateurs. Si Copilot est géré au niveau de l’organisation, l’option disparaît. En quittant l’organisation, il est possible d’être automatiquement réinscrit en opt-in.
  • Je me demande si, dès qu’une seule personne dans l’équipe ne se désinscrit pas, Copilot peut accéder à l’ensemble du repo. J’aimerais aussi savoir s’il existe un moyen de vérifier l’état des réglages de tous les membres de l’équipe.

    • Comme on ne peut pas empêcher un collègue de cloner le code puis de le coller dans un prompt, ce réglage est lui aussi impossible à contrôler. Du point de vue de MS, l’opt-in par défaut est bien plus pratique.
  • À l’heure actuelle, le réglage n’est possible qu’au niveau utilisateur. Je me demande s’il existe un moyen de tout désactiver au niveau de l’organisation. Je crains que, si une seule personne active ce paramètre, le code de l’organisation soit considéré comme donnée d’entraînement.

  • Je reconnais que GitHub a affiché régulièrement une bannière d’annonce. Mais moi non plus, je ne l’avais pas lue avant de voir ce post HN.

    • Mais les gens qui utilisent git uniquement en CLI ne verront jamais cette bannière.
    • Même en lisant la bannière ou l’email, il n’est pas indiqué clairement quel réglage il faut modifier pour être en opt-out. L’utilisateur doit au final le chercher lui-même, puis ne découvre que plus tard s’il a correctement configuré le tout.
    • Je n’ai jamais vu cette bannière. Je me demande où elle s’affiche.
    • C’est la première fois que je vois une app réinitialiser ou perdre un réglage.
  • Mon repo privé contient un code tellement chaotique qu’il n’y a pas de quoi s’inquiéter. Au contraire, si un LLM s’entraîne sur mon code, c’est lui qui sera perdant.

    • Moi aussi. Je vais saboter l’IA de M$ avec mon code poubelle.
    • Polluer un LLM comme forme de résistance, c’est une idée assez intéressante.
  • Je plains les gens qui paient GitHub depuis longtemps et n’ont jamais vu l’annonce.

    • Moi aussi je déteste l’opt-out, mais en ce moment il y a une bannière d’annonce sur toutes les pages GitHub, et ils ont aussi envoyé un email.