1 points par GN⁺ 2 시간 전 | 1 commentaires | Partager sur WhatsApp
  • À mesure que les LLM sont utilisés à la fois pour générer et évaluer des CV, l’autopréférence des modèles d’évaluation pour leurs propres productions apparaît comme un nouveau biais dans le tri des candidatures
  • L’étude compare des CV contrefactuels produits par plusieurs LLM, dont GPT-4o, LLaMA 3.3-70B et DeepSeek-V3, à partir de 2 245 CV rédigés par des humains et collectés avant la diffusion massive de l’IA générative
  • Dans la plupart des modèles, une forte autopréférence LLM-vs-Humain a été observée, avec un biais allant de 67 % à 82 % en faveur de leurs propres CV par rapport à des CV humains dans les principaux modèles commerciaux et open source
  • Dans une simulation de pipeline de recrutement sur 24 métiers, les candidats ayant utilisé le même LLM que celui servant à l’évaluation avaient environ 23 % à 60 % de chances en plus d’être retenus dans la shortlist finale que des candidats de qualification équivalente ayant soumis un CV rédigé par un humain
  • Un system prompting demandant d’ignorer la source pour se concentrer sur le contenu, ainsi qu’un ensemble par vote majoritaire, réduisent l’autopréférence LLM-vs-Humain de 17 % à 63 % en relatif sur tous les LLM testés

Un nouveau biais créé par l’autopréférence de l’IA dans l’évaluation des recrutements

  • À mesure que les grands modèles de langage (LLM) sont utilisés à la fois pour la génération de contenu et pour son évaluation, leur autopréférence (self-preference) — la tendance à mieux évaluer les contenus produits par le même modèle — émerge comme un nouveau biais dans les processus de décision comme le recrutement
  • Dans le recrutement, les candidats utilisent de plus en plus les LLM pour rédiger ou retravailler leur CV, tandis que les employeurs s’appuient sur des outils similaires pour filtrer ou classer les candidatures ; ces interactions IA-IA peuvent donc influencer les résultats d’évaluation réels
  • Alors que les débats existants sur l’équité se concentrent surtout sur les discriminations liées aux attributs démographiques, l’autopréférence diffère en ce qu’il s’agit d’un biais endogène né de la relation entre le modèle évaluateur et le modèle générateur
  • Ce biais peut avantager des candidats de niveau identique qui ont utilisé le même modèle que celui employé pour l’évaluation, et désavantager ceux qui ont utilisé d’autres outils ou pas d’IA du tout
  • Le tri des CV constitue un goulot d’étranglement initial qui réduit un grand vivier de candidats à un nombre limité d’entretiens et d’étapes d’évaluation ; des erreurs à ce stade peuvent donc affecter durablement la composition du vivier final et la répartition des opportunités d’embauche

Conception de l’expérience et méthode de mesure

  • L’expérience s’appuie sur 2 245 CV rédigés par des humains, collectés via une plateforme professionnelle de rédaction de CV, en utilisant des données datant d’avant l’adoption généralisée de l’IA générative
  • Pour chaque CV, plusieurs versions contrefactuelles ont été générées par différents LLM récents, de façon à ne faire varier que la forme d’expression, tout en conservant les qualifications, l’expérience et le parcours du même candidat
  • Les modèles utilisés sont GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B et Deepseek-V3
  • Le LLM évaluateur effectue des comparaisons par paires entre deux CV représentant le même candidat, en choisissant le CV qu’il juge le plus solide, la seule différence étant la source du CV évalué
  • L’autopréférence est divisée en deux formes
    • Autopréférence LLM-vs-Humain

      • Elle désigne la tendance d’un LLM évaluateur à préférer un CV qu’il a lui-même généré à un CV équivalent rédigé par un humain
    • Autopréférence LLM-vs-LLM

      • Elle désigne la tendance d’un LLM évaluateur à préférer un CV qu’il a lui-même généré à un CV généré par un autre LLM
      • Dans ce contexte, le LLM évaluateur fonctionne comme un classificateur binaire, et le biais est mesuré à l’aide des critères de parité statistique (statistical parity) et d’égalité des chances (equal opportunity) issus de la littérature sur l’équité
      • Le biais d’autopréférence fondé sur la parité statistique est défini comme la différence entre la probabilité qu’un CV généré par le LLM évaluateur soit sélectionné et la probabilité qu’un CV généré par un humain ou un autre LLM soit sélectionné
      • Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
      • Ici, S = 1 désigne un CV généré par le LLM évaluateur f, et S = 0 un CV généré par un humain ou par un autre LLM
      • Y'_f = 1 signifie que le LLM évaluateur f a choisi ce CV comme le plus solide
      • Il faut rester prudent avant d’interpréter directement un écart de parité statistique comme un biais
      • Cet écart peut venir de l’autopréférence, mais aussi de différences de qualité du contenu si la même information sur le candidat est exprimée de manière plus claire, plus cohérente et plus fluide
      • Ici, la qualité du contenu renvoie non pas à des différences de qualification ou de parcours, mais à la clarté, la cohérence, la fluidité et la structuration dans la transmission des mêmes informations

Principaux résultats empiriques

  • Dans la plupart des modèles, l’autopréférence LLM-vs-Humain apparaît de manière forte et cohérente
  • Des modèles plus grands comme GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B et LLaMA 3.3-70B montrent un biais marqué de plus de 65 %, même après contrôle de la qualité du contenu
  • Dans le cas de GPT-4o, l’autopréférence LLM-vs-Humain dépasse 80 %, et dans l’ensemble des principaux modèles commerciaux et open source, le biais en faveur de leurs propres CV face à des CV humains se situe entre 67 % et 82 %
  • L’autopréférence LLM-vs-LLM varie davantage selon les modèles
    • DeepSeek-V3 montre le biais le plus fort dans cette configuration, avec une préférence de 69 % pour ses propres productions par rapport à celles de LLaMA 3.3-70B
    • DeepSeek-V3 préfère également ses propres productions de 28 % par rapport à celles de GPT-4o
    • GPT-4o et LLaMA 3.3-70B ne montrent pas d’autopréférence cohérente lorsqu’ils évaluent des contenus produits par d’autres modèles
  • L’évaluation peut être influencée moins par les qualifications réelles du candidat que par le degré d’alignement avec le style de génération du LLM évaluateur
  • Ce biais peut donner un avantage injuste aux candidats ayant accès à une technique de génération spécifique ou capables d’utiliser un modèle particulier, et désavantager les autres

Impact sur le pipeline de recrutement

  • Une simulation réaliste du pipeline de recrutement sur 24 métiers mesure l’impact opérationnel de l’autopréférence sur les résultats de sélection
  • Les candidats ayant utilisé le même LLM que celui employé pour l’évaluation avaient environ 23 % à 60 % de chances supplémentaires d’être retenus dans la shortlist finale par rapport à des candidats de qualification équivalente ayant soumis un CV rédigé par un humain
  • Le désavantage est le plus marqué dans les métiers liés au business comme la comptabilité, les ventes et la finance
  • Il est relativement moins prononcé dans l’agriculture, les arts et les domaines liés à l’automobile
  • Si ce même avantage se répète au fil des cycles de recrutement, un effet de verrouillage (lock-in) peut apparaître, où le style de CV préféré par un LLM dominant se fixe progressivement dans le vivier de candidats
  • Un tel effet de verrouillage peut réduire la diversité dans la sélection des candidats et amplifier les inégalités dans la distribution des opportunités d’évaluation
  • Comme les étapes ultérieures, telles que les entretiens et les évaluations, ont une capacité limitée, les faux négatifs au stade initial du tri des CV peuvent exclure de manière irréversible des candidats qualifiés, tandis que les faux positifs consomment des ressources d’évaluation limitées

Stratégies d’atténuation et implications en matière d’équité

  • Le mécanisme central de l’autopréférence est présenté comme l’autoreconnaissance (self-recognition)
    • L’autoreconnaissance désigne la capacité d’un modèle à identifier implicitement les contenus qu’il a lui-même générés
    • Des travaux antérieurs ont montré que des LLM comme GPT-4 et LLaMA 2 possédaient une capacité d’autoreconnaissance significative, et qu’il existait une forte corrélation positive entre cette capacité et l’ampleur du biais d’autopréférence
  • Deux stratégies simples d’atténuation sont proposées
    • System prompting

      • On demande explicitement au modèle d’ignorer la source du CV et de se concentrer uniquement sur le contenu substantiel
    • Ensemble par vote majoritaire

      • Il combine le modèle d’évaluation avec des modèles plus petits, moins capables d’autoreconnaissance, afin de diluer le biais d’un LLM unique
      • Pour tous les LLM testés, ces interventions réduisent l’autopréférence LLM-vs-Humain de 17 % à 63 % en relatif
      • Dans de nombreux cas, de simples interventions ciblant l’autoreconnaissance suffisent à réduire le biais de plus de 50 %
      • Le biais d’autopréférence est répandu et a un effet tangible sur les résultats de recrutement, mais il ne s’agit pas d’une caractéristique figée et il peut être fortement réduit par des interventions de conception
      • Les cadres d’équité pour le recrutement fondé sur l’IA doivent traiter non seulement les discriminations liées aux attributs protégés, mais aussi les biais d’interaction issus des interactions entre systèmes d’IA utilisés pour la génération et pour l’évaluation
      • La gouvernance de l’IA et la conception d’opérations responsables en entreprise doivent prendre en compte non seulement les données d’entrée et les attributs protégés, mais aussi quel modèle produit les documents de candidature et quel modèle les évalue

1 commentaires

 
GN⁺ 2 시간 전
Réactions sur Hacker News
  • Pour reprendre mot pour mot ce que j’ai écrit sur LinkedIn, si j’ai bien lu l’article, il ne montre pas vraiment que les LLM préfèrent les CV qu’ils ont eux-mêmes générés
    La méthode réelle semble avoir consisté à supprimer le résumé exécutif de CV rédigés par des humains, puis à demander à un LLM de le réécrire à partir du reste du CV, avant qu’un autre LLM n’évalue uniquement ce résumé sans voir le reste du CV
    Même en admettant que ce protocole capture un effet réel, il risque d’en exagérer fortement l’ampleur. Les auteurs donnent une justification de ce choix expérimental, mais elle ne paraît pas suffisante : https://news.ycombinator.com/item?id=47987256#47987727

    • Ça peut aussi n’être qu’une publicité pour utiliser davantage les LLM. De la même manière qu’il existe des groupes de promotion pour le fromage, le pétrole ou la noix de muscade, il existe probablement des consortiums autour des LLM qui peuvent financer ce type d’étude pour attiser le FOMO
      Les RH utilisent des LLM, donc les candidats doivent en utiliser aussi ; puis plus tard, comme les bons candidats utilisent des LLM, les RH doivent eux aussi en utiliser, dans une boucle auto-entretenue
  • C’est un témoignage avec un échantillon de un, mais après mon licenciement, quand je cherchais un nouveau poste, le CV que j’avais rédigé moi-même obtenait peu de retours au vu de mon expérience
    Pour m’amuser, j’ai demandé à ChatGPT d’analyser mon CV, de lui donner une note, puis de le modifier pour maximiser cette note. Après vérification des faits et corrections, je l’ai envoyé, et mon taux de réponse a nettement augmenté
    C’est peut-être lié au marché ou au timing, mais il fallait toujours réussir les entretiens et prouver ses compétences ; malgré tout, ça semble m’avoir aidé à franchir la première barrière

    • Ma femme a vécu quelque chose de similaire. Elle avait soigneusement retravaillé son profil LinkedIn et son CV pour y mettre des métriques, des mots-clés et des résultats, mais pendant plusieurs mois, voire presque un an, elle n’a quasiment reçu ni message de recruteur ni réponse à ses candidatures
      Ensuite, elle a eu recours à ChatGPT 5.x, et même si elle était sceptique parce que les changements proposés avaient ce style IA uniformisé, des recruteurs ont commencé à la contacter et ses candidatures à avancer quelques jours plus tard
      Avec des LLM injectés à toutes les étapes du recrutement, on dirait que la difficulté augmente désormais si un LLM ne rédige pas aussi votre CV. Les LLM chargés d’examiner les CV semblent moins bien noter les profils qui ne parlent pas le même langage et ne stimulent pas les bons neurones
    • J’ai fait quelque chose de semblable récemment pendant ma recherche d’emploi, en lui demandant de vérifier si les éléments se lisaient bien, et il m’a proposé énormément de corrections. J’en ai appliqué quelques-unes, mais je ne sais pas à quel point cela a aidé sur les résultats réels
    • Il existe aussi des services qui font ce type de travail sur LinkedIn et les CV, et j’ai déjà vu des résultats plutôt corrects avec ça
    • Après ça, j’ai réduit et retravaillé le texte pour qu’il sonne de nouveau comme s’il avait été écrit par un humain
    • Les RH ont peut-être aussi mis un +1 au fait de savoir utiliser l’IA
  • Intuitivement, ça semble évident. Le contenu produit par un modèle porte l’empreinte de ses données d’entraînement ; lorsqu’il le relit, cela peut mieux correspondre à la même distribution d’entraînement et conduire à une évaluation plus favorable
    C’est un peu comme si quelqu’un demandait : « rends mon CV plus professionnel », puis que quelques jours plus tard, un LLM écrivait dans un rapport RH : « ce CV est vraiment professionnel »
    Cela justifie ma règle personnelle consistant à utiliser une famille de LLM pour générer du code et une autre pour relire le code. Le but est d’éviter qu’un modèle corrige son propre devoir

    • Et en plus, ce n’est pas interprétable d’une manière compréhensible pour les humains. Il y avait une étude où l’on demandait à un LLM d’agir d’une certaine façon, puis d’imprimer un nombre aléatoire ; quand ce nombre était collé dans une autre instance de LLM, celle-ci se comportait elle aussi de la même manière
      Je ne me souviens plus du lien, mais c’était vraiment fascinant
  • On insère encore un autre acteur entre les personnes, sans leur consentement. Le modèle devient un arbitre qui décide qui obtient ou non un emploi, et cela semble problématique

    • Cela peut aussi créer une grosse opportunité d’arbitrage pour ceux qui n’utilisent pas de LLM
      Si un service RH filtre les CV avec ChatGPT, il finira par sélectionner des personnes dont le CV a été produit avec ChatGPT. Je ne veux pas faire d’argument de pente glissante, mais j’ai l’intuition que la qualité des organisations risque de se dégrader rapidement
      À l’inverse, je suis plombier et sous-traitant, et le travail m’arrive presque entièrement par téléphone, SMS, e-mails ponctuels et recommandations fiables. Cela fait plus de 8 ans que je n’ai pas eu affaire à un CV classique
      Si je commence à échanger avec quelqu’un et qu’il donne l’impression de parler comme un ordinateur, c’est immédiatement un signal pour passer au client suivant. Si cette personne n’est même pas prête à prendre le temps de communiquer directement avec moi, je vois mal comment je pourrais faire des centaines d’heures de travail physique pour elle
    • La réponse habituelle est : « il suffit d’utiliser le modèle disponible », mais l’IA gardera probablement toujours des contraintes de ressources et des motivations de profit
      Au bout du compte, les pauvres risquent d’avoir de moins bons CV que les riches, et si le modèle intermédiaire a le dernier mot, il pourrait devenir presque impossible d’échapper à cette situation
    • Le train était déjà parti au moment où les responsables du recrutement ont cessé de lire eux-mêmes les CV et où le métier de recruteur s’est interposé
    • Avant, c’était déjà les RH qui jouaient ce rôle ; en pratique, il y a donc toujours eu un intermédiaire entre les personnes. Les RH ne s’intéressaient généralement pas vraiment au CV en tant que tel, ils vérifiaient surtout la correspondance avec une checklist
    • En réalité, tout cela a déjà commencé le jour où tout le monde s’est créé un compte LinkedIn
  • Dans la tech, les CV vont probablement finir par devenir, ou sont peut-être déjà, obsolètes. Le ratio signal/bruit est trop faible, donc leur valeur de filtrage est très mince
    Même des signaux relativement forts comme le GPA, les certifications ou les postes précédents se traduisent mal en performance lors des premiers entretiens de sélection
    À mon avis, ce dont l’industrie a désespérément besoin, c’est d’un consortium d’examens. Au lieu d’inférer les compétences à partir du nom de l’université, les grandes entreprises tech pourraient créer des examens standardisés par domaine, et ces scores serviraient de CV ; les développeurs pourraient alors se concentrer sur l’amélioration de leurs scores plutôt que sur la corvée de rédaction de CV et de sélections répétitives

    • Un tel système finirait lui aussi par être instrumentalisé. De la même façon que l’optimisation LeetCode est apparue en réponse aux questions d’entretien façon Silicon Valley, étudier pour le travail deviendrait étudier pour l’examen, puis étudier pour le pré-examen
    • Un tirage au sort vaudrait peut-être mieux. L’utilité serait globalement similaire, mais ce serait bien plus simple
      Après tout, on peut se demander si les certifications « d’entreprise » ne jouent pas déjà ce rôle
    • Le simple fait de concevoir des examens standardisés par domaine est un problème extrêmement difficile. Même sans parler des incitations évidentes à la triche, les tests standardisés représentent mal la compréhension réelle d’un sujet
      Cela revient pratiquement à dire que LeetCode est un bon outil de recrutement, ce qui mérite beaucoup de critiques
    • Concevoir des examens d’informatique est difficile. LeetCode est trop simpliste et ne teste guère que des connaissances de base en algorithmique, presque inutiles dans le développement logiciel général
  • Cela pourrait déboucher sur un jeu de devinettes assez intéressant. Si vous postulez dans une entreprise en sachant qu’elle utilise un ATS particulier, et que cet ATS s’appuie sur les filtres d’un fournisseur de modèles donné, il devient logique de rédiger la version de votre CV destinée à cette entreprise avec ce modèle-là

    • Bonne remarque. Beaucoup de versions du futur finiront sans doute en course aux armements des LLM
  • On dirait que toute l’industrie utilise des évaluateurs automatiques. En gros, on note les sorties d’un agent avec une instance d’agent
    L’idée ressemble à l’entraînement de générateurs d’images basés sur des réseaux antagonistes, mais sans humains pour labelliser. Les équipes finissent donc par optimiser leur métrique pour améliorer le score de l’évaluateur automatique, et il ne serait pas surprenant qu’on aboutisse à des agents qui attribuent les meilleures notes au contenu qu’ils ont eux-mêmes généré

  • Pour tester, j’ai lancé qwen/qwen3-v1-30b en local et je lui ai donné mon CV, écrit à 100 % par un humain, en lui demandant : « rends ce CV plus professionnel »
    Il en est sorti des puces impressionnantes, et la phrase « spécialisé dans la modélisation de données à l’échelle de l’entreprise et ayant travaillé à l’optimisation du coût des revenus sur l’ensemble de la base clients » est devenue « spécialisé dans la modélisation de données d’entreprise et l’optimisation des performances, ayant conduit à plus de 5 millions de dollars d’économies récurrentes sur l’ensemble de la base clients »
    Plus de 5 millions de dollars, ça sonne bien, et il est clair que le corpus des CV est centré sur les métriques, mais ce n’était pas vrai, et je n’ai jamais demandé qu’il invente des chiffres
    Il est même allé jusqu’à inventer à partir de rien « University of California, Berkeley — Licence d’informatique | 1996–1998 », alors que mon CV mentionnait seulement un poste de SDE entre 1996 et 1998

    • Oui, le problème des inventions va encore aggraver la situation
      Certaines personnes corrigeront ces hallucinations, et dans ce cas le pire sera surtout une perte de temps pour le candidat
      D’autres ne les corrigeront pas ; dans ce cas, le mieux qui puisse arriver est que le candidat et l’intervieweur découvrent l’erreur plus tard et perdent du temps. Le pire, c’est qu’une personne incapable de faire le travail soit embauchée, avec au final une issue sale et inefficace pour tout le monde
  • C’est un sujet très actuel pour moi. Mon CV est monté jusqu’à 7 pages, et comme on dit partout qu’il ne faut pas dépasser 2 pages, j’ai demandé à Gemini de le réécrire
    Gemini adore tout exagérer, donc ça m’a pris beaucoup de temps, mais je suis assez satisfait du résultat
    Pourtant, les premiers recruteurs à qui je l’ai envoyé préféraient mon ancien CV de 7 pages. Ils n’utilisent peut-être pas encore assez l’IA

  • Les LLM jugent systématiquement positivement le contenu écrit par des LLM
    Si vous faites rédiger un document de conception par un LLM, attendez qu’il produise quelque chose de très mauvais, puis demandez des retours à d’autres LLM, ils seront en général plutôt élogieux
    À l’inverse, si vous envoyez un document vraiment bien écrit, ils auront tendance à relever davantage de défauts, même si les prémisses sont solides. Quelqu’un devrait étudier cela
    Les LLM ont clairement beaucoup de valeur, mais ce phénomène révèle une faiblesse très intéressante dont on ne voit pas encore clairement l’étendue des effets
    Les LLM semblent probablement aussi avoir un fort biais en faveur du code qu’ils écrivent eux-mêmes. Si vous leur donnez du code largement reconnu comme bien écrit, comme Redis, en demandant un retour, ils trouveront sans doute beaucoup de défauts, dont une bonne partie pourrait être complètement erronée
    À l’inverse, si on donne au même modèle un dépôt manifestement médiocre généré par un LLM, réagira-t-il comme pour les documents de conception ? Traite-t-il le langage naturel et le code différemment, ou retrouve-t-on le même problème ? Je me demande si quelqu’un a déjà essayé