- GitHub prévoit d’utiliser le code et les données des dépôts privés pour l’entraînement de modèles d’IA
- Les utilisateurs doivent refuser explicitement (opt-out) avant le 24 avril pour empêcher l’utilisation de leurs données
- En l’absence de refus, des informations de projets privés peuvent être incluses dans les données d’entraînement
- Cette politique est liée à la collecte de données visant à améliorer les fonctionnalités d’IA comme GitHub Copilot
- Les développeurs doivent vérifier leurs paramètres afin de protéger la confidentialité et la sécurité du code
Changement de politique de GitHub sur les données d’entraînement de l’IA
- GitHub a modifié sa politique afin de pouvoir inclure les données des dépôts privés dans l’entraînement pour améliorer ses modèles d’IA
- Si l’utilisateur ne refuse pas séparément, les données seront utilisées automatiquement
- Le refus peut être effectué directement depuis la page des paramètres de GitHub
- Les données d’entraînement peuvent inclure du code privé, des métadonnées de projet et l’historique des commits
- Cette mesure est présentée comme destinée à améliorer la qualité de Copilot et d’autres fonctionnalités d’IA
Impact pour les développeurs
- Si les dépôts privés sont utilisés pour l’entraînement, il existe un risque d’exposition de code sensible ou de logique interne
- Les entreprises comme les développeurs individuels doivent examiner leurs politiques de sécurité et effectuer la procédure d’opt-out
- Ce changement chez GitHub pourrait relancer le débat sur la transparence des données d’entraînement de l’IA et le contrôle laissé aux utilisateurs
3 commentaires
Je vois ce message s’afficher en continu sur GitHub depuis quelques jours,
Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.
J’ai choisi l’opt-out, mais j’ai l’impression qu’ils utilisaient déjà l’IA depuis longtemps.
C’est une fake news vraiment trop grossière.
Réactions sur Hacker News
On le dit depuis 2023. Si des informations stockées dans une base de données sont accessibles librement par l’entreprise, alors cette entreprise finira par modifier ses conditions d’utilisation pour pouvoir les exploiter comme données d’entraînement pour l’IA. L’incitation est trop forte, donc ça paraît inévitable.
En affirmant que « ce n’est pas le cas », quelqu’un partage le lien vers le blog officiel de GitHub. Les utilisateurs Free, Pro et Pro+ de Copilot verront leurs données d’utilisation servir à l’entraînement des modèles s’ils ne se désinscrivent pas. Les abonnés Business ou Pro ne sont pas inclus dans l’entraînement. Si vous n’utilisez pas Copilot, vous n’êtes pas concerné. Si vous vous désinscrivez dès maintenant, le réglage restera en place plus tard.
Le titre de cette actualité est susceptible d’induire en erreur. GitHub n’entraîne pas sur le repo privé lui-même, mais sur les données d’interaction générées pendant l’usage de Copilot. Si vous n’utilisez pas Copilot, vous n’êtes pas concerné. Cela dit, mieux vaut quand même le désactiver.
Plus précisément, l’opt-out concerne le paramètre d’entraînement de Copilot. Jusqu’ici, seuls les repos publics étaient en opt-in, mais à partir du 24 avril les repos privés seront aussi inclus par défaut. Si vous utilisez Copilot sur des repos privés, mieux vaut vous désinscrire via github.com/settings/copilot. Ça prend 30 secondes.
Je me demande si, dès qu’une seule personne dans l’équipe ne se désinscrit pas, Copilot peut accéder à l’ensemble du repo. J’aimerais aussi savoir s’il existe un moyen de vérifier l’état des réglages de tous les membres de l’équipe.
À l’heure actuelle, le réglage n’est possible qu’au niveau utilisateur. Je me demande s’il existe un moyen de tout désactiver au niveau de l’organisation. Je crains que, si une seule personne active ce paramètre, le code de l’organisation soit considéré comme donnée d’entraînement.
Je reconnais que GitHub a affiché régulièrement une bannière d’annonce. Mais moi non plus, je ne l’avais pas lue avant de voir ce post HN.
Mon repo privé contient un code tellement chaotique qu’il n’y a pas de quoi s’inquiéter. Au contraire, si un LLM s’entraîne sur mon code, c’est lui qui sera perdant.
Je plains les gens qui paient GitHub depuis longtemps et n’ont jamais vu l’annonce.