- À partir du 24 avril 2026, les données des utilisateurs de Copilot Free, Pro et Pro+ seront utilisées pour l’entraînement et l’amélioration des modèles d’IA, et les utilisateurs pourront refuser via un paramètre d’opt-out
- Les utilisateurs de Business et Enterprise ne sont pas concernés par ce changement, et si un refus avait déjà été configuré, ce choix reste inchangé
- Les données d’entraînement incluront des informations réelles sur les interactions de développement, comme le code saisi, les résultats générés, le contexte autour du curseur et les évaluations de feedback
- Les dépôts d’entreprise, les contenus privés et les données des utilisateurs ayant choisi l’opt-out ne seront pas utilisés pour l’entraînement, et les données ne seront partagées qu’avec les entités affiliées à GitHub, comme Microsoft
- GitHub affirme que les données issues des interactions réelles des développeurs sont essentielles pour améliorer la précision, la sécurité et la capacité de détection des bugs, et insiste sur la participation volontaire des développeurs
Mise à jour de la politique d’utilisation des données d’interaction de GitHub Copilot
- À partir du 24 avril 2026, les données d’interaction des utilisateurs de Copilot Free, Pro et Pro+ (entrées, sorties, extraits de code, contexte associé) seront utilisées pour l’entraînement et l’amélioration des modèles d’IA
- Toutefois, si l’utilisateur choisit l’opt-out, ses données ne seront pas utilisées pour l’entraînement
- Les utilisateurs de Copilot Business et Enterprise ne sont pas concernés par ce changement
- Les utilisateurs ayant déjà refusé la collecte de données conservent leur choix actuel, et leurs données ne seront pas incluses dans l’entraînement sans consentement explicite
- GitHub indique que ce changement est conforme aux pratiques standard du secteur et qu’il contribuera à améliorer la précision, la sécurité et la capacité de détection des bugs du modèle
- Les utilisateurs peuvent modifier leur participation à tout moment dans la section Privacy de la page des paramètres
Pourquoi l’entraînement sur des données réelles est nécessaire
- Les premiers modèles Copilot ont été construits à partir de données publiques et d’échantillons de code préparés manuellement
- L’entraînement a ensuite intégré les données d’interaction des employés de Microsoft, et des améliorations significatives ont été constatées, notamment une hausse du taux d’acceptation (acceptance rate) dans plusieurs langages de programmation
- Sur cette base, GitHub a décidé d’inclure les données d’interaction réelles des développeurs dans l’entraînement afin de refléter une plus grande diversité de cas d’usage réels
Données collectées et utilisées
- Les données pouvant être utilisées pour l’entraînement du modèle comprennent :
- les résultats générés que l’utilisateur a acceptés ou modifiés
- les extraits de code et contenus de requêtes saisis dans Copilot
-
Contexte du code autour du curseur
- les commentaires et contenus documentaires rédigés par l’utilisateur
-
Noms de fichiers, structure du dépôt et schémas de navigation
- les interactions avec les fonctionnalités de Copilot (chat, suggestions inline, etc.)
- les retours sur les suggestions (j’aime / je n’aime pas)
Données non incluses dans l’entraînement
- Les données suivantes ne seront pas utilisées pour l’entraînement du modèle :
- les données d’interaction de Copilot Business, Enterprise et des dépôts appartenant à une entreprise
- les données des utilisateurs ayant choisi l’opt-out
- les contenus des issues, discussions et dépôts inactifs (private at rest)
- toutefois, lors de l’utilisation de Copilot, le code des dépôts privés peut être traité pour exécuter le service et, en l’absence d’opt-out, peut être inclus dans l’entraînement
Portée du partage des données et de la sécurité
- Les données collectées peuvent être partagées avec les entités affiliées à GitHub (par exemple Microsoft)
- En revanche, elles ne seront pas partagées avec des fournisseurs tiers de modèles d’IA ni avec des prestataires de services externes
- GitHub souligne que les progrès du développement assisté par l’IA dépendent des données issues des interactions réelles des développeurs, et que les données des employés de Microsoft et GitHub sont déjà utilisées pour l’entraînement des modèles
Choix de l’utilisateur et impact
- Si l’utilisateur accepte de fournir ses données, le modèle pourra s’améliorer en matière de compréhension des workflows de développement, de suggestions de code plus précises et plus sûres et de renforcement de la détection préventive des bugs
- Même sans participation, les fonctionnalités IA existantes de Copilot resteront disponibles
- GitHub indique accueillir favorablement la participation volontaire afin d’améliorer la qualité pour l’ensemble de la communauté des développeurs, et les questions connexes peuvent être consultées sur la page de FAQ et de discussion communautaire
Aucun commentaire pour le moment.