4 points par GN⁺ 2025-12-16 | 2 commentaires | Partager sur WhatsApp
  • Le style d’anglais formel façonné par le système éducatif kényan est régulièrement perçu comme s’il avait été généré par une IA
  • L’entraînement structurel à la rédaction en anglais met l’accent sur l’équilibre des phrases, la progression logique et l’usage des connecteurs, produisant ainsi un résultat proche de l’écriture de l’IA
  • Ce style est un héritage de l’enseignement de l’anglais britannique à l’époque coloniale, maintenu comme symbole de statut social et de culture
  • Le texte souligne le problème des biais des détecteurs d’IA et des modèles de langue, qui jugent l’écriture des non-natifs comme « non humaine »
  • Il insiste sur le fait que ce qui se révèle à travers l’écriture n’est pas une machine, mais le produit de l’histoire, de l’éducation et de l’identité linguistique

Le malentendu entre l’IA et l’écriture humaine

  • Le point de départ est l’expérience de l’auteur, qui a reçu comme retour sur sa proposition : « on dirait que c’est ChatGPT qui l’a écrite »
    • Parce que son style est structuré et logique, il a été jugé « trop peu humain »
  • De nombreux auteurs vivent des réactions similaires, et cela est lié à des préjugés envers les écrivains non natifs
  • L’auteur explique que si son style ressemble à celui de l’IA, c’est parce que l’IA a appris à partir de leur manière d’être formés à l’écriture

La formation de l’enseignement de l’anglais à la kényane

  • L’épreuve de rédaction en anglais du KCPE (Kenya Certificate of Primary Education) est au cœur de l’entraînement à l’écriture
    • Pour obtenir une bonne note à cet examen noté sur 40, il faut maîtriser un vocabulaire riche et des structures de phrases complexes
    Publicité
  • Les règles de rédaction se résument en trois points
    • Commencer par un proverbe ou une formule forte, utiliser un vocabulaire varié, maintenir une structure parfaite
  • L’enseignant joue le rôle de « l’algorithme originel » corrigeant grammaire et structure au stylo rouge
  • Cet entraînement met l’accent sur une construction de phrase logique et équilibrée, qui se prolonge ensuite au lycée et à l’université

Héritage colonial et hiérarchie de la langue

  • L’enseignement de l’anglais au Kenya provient du système linguistique de l’Empire britannique
    • Il valorise la correction grammaticale et le registre soutenu selon le standard du « Queen’s English »
  • Après l’indépendance, cette langue est restée à la fois langue officielle et symbole de statut social
    • La maîtrise d’un anglais soigné est devenue un critère de distinction du niveau d’éducation et de la classe sociale
    Publicité
  • En conséquence, les vastes corpus de styles formels appris par l’IA ont fini par prendre une forme proche de celle produite par l’enseignement kényan de l’anglais

Les biais et les limites des détecteurs d’IA

  • Les détecteurs d’IA se fondent sur la « perplexity » (prévisibilité) et la « burstiness » (variabilité de la longueur des phrases)
    • Une structure de phrase prévisible et un rythme régulier sont considérés comme non humains
  • Or, l’éducation kényane valorise précisément ce style prévisible et équilibré comme idéal
  • Des recherches montrent que ces détecteurs ont une forte probabilité de classer à tort les textes de non-natifs comme générés par l’IA
  • Cela révèle un biais technique qui exclut la diversité linguistique

Redéfinir l’humanité et la langue

  • Les textes des écrivains kényans sont le produit de l’éducation, de l’histoire et de la culture, et non d’une machine
  • Le texte critique une réalité dans laquelle la norme de l’« écriture humaine » se limite à des expressions informelles et américaines
  • Des auteurs de Nairobi, Lagos ou Mumbai partagent eux aussi une tradition d’écriture qui valorise la précision et la logique
  • Dire d’un texte qu’il « ressemble à de l’IA » revient à ne pas reconnaître d’autres formes d’humanité
  • La conclusion affirme que c’est ainsi qu’écrivent les Kényans, et que cette manière existe depuis longtemps

2 commentaires

 
GN⁺ 2025-12-16
Avis Hacker News
  • Notre génération a appris des enseignants aux élèves des règles implicites de l’écriture
    Il fallait toujours commencer la première phrase par un proverbe ou une formule percutante, et employer des tournures comme « strode purposefully » au lieu de mots ordinaires
    Mais en étudiant l’écriture à l’université, on m’a peu à peu poussé vers des phrases simples et des formulations courtes
    Aujourd’hui, le style à la Hemingway me semble idéal. Le style flamboyant de ChatGPT me fatigue au contraire
    Je reconnais le talent de l’auteur, mais je préfère une écriture simple et claire

    • L’obsession des phrases courtes a abîmé la prose anglaise
      Pour la plupart des gens, la simplicité aide, mais la tendance à traiter les longues phrases, les points-virgules et le vocabulaire nuancé comme de la « mauvaise écriture » est un problème
      Cette attitude freine la progression des lecteurs comme des auteurs
      Cela dit, des expressions comme « proceeded to » restent nulles. Forcer les élèves à utiliser des mots censés les faire paraître « intelligents » est l’une des pires façons d’enseigner
      Ma femme est écrivaine, et elle dit que dans les fanfictions ou les romans d’amour, le mot « strode » revient de manière anormalement fréquente. Écrire que tout le monde « avance d’un pas assuré » chaque fois qu’il marche est un trait classique des amateurs

    • Les styles d’écriture cachent des signaux de classe sociale
      Comme le dit l’article, l’anglais qu’on nous a appris était le « Queen’s English » de l’époque impériale, la langue du pouvoir
      Maîtriser l’élégance formelle de l’écriture ne servait pas seulement à réussir les examens, mais à prouver qu’on était une « personne civilisée »
      Les modes d’écriture ressemblent à des cycles de mode sociale. Quand un style flamboyant se démocratise, les classes supérieures se distinguent à l’inverse par un style plus dépouillé
      Le style sobre à la Hemingway, c’est un peu comme un « jean déchiré à 1 000 dollars » : une façon, réservée à ceux qui en ont les moyens, d’avoir l’air volontairement modeste

    • J’ai travaillé dans l’une des entreprises du Big Three, et le style de ChatGPT est exactement celui des rapports d’autoévaluation qu’on nous apprenait à écrire en interne
      L’important pour être promu n’était pas tant les résultats que la capacité à bien « emballer » son récit

    • Tu es peut-être Américain ? Même dans le monde anglophone, les différences culturelles entre anglais britannique et américain sont importantes
      Les Américains sont moins poseurs et plus directs, alors que l’anglais britannique reste plus volontiers flamboyant et ornemental
      D’après mon ressenti, le vocabulaire des Britanniques se réduit de génération en génération

    • L’écriture a deux objectifs
      (1) Écrire pour transmettre des idées — plus c’est simple, mieux c’est. Comme dans les essais de Paul Graham, l’information entre dans la tête sans friction
      (2) Écrire pour s’exprimer soi-même — un style flamboyant et artistique peut alors convenir
      Comme le disait David Foster Wallace, le premier type est une écriture qui communique comme une conversation, tandis que le second ressemble à un journal intime qui crie : « Voilà qui je suis ! »

  • Il est intéressant de noter qu’une grande partie des données d’entraînement des LLM a été curée au Kenya
    Si les données avaient été produites au Japon, ChatGPT aurait peut-être fini ses phrases avec des tournures de type « Don’t you agree? » à la japonaise
    Article lié

    • L’influence de l’auteur de manuels indien Malkiat Singh est importante
      Ses manuels servaient de référence au Kenya, et comme ses élèves sont devenus des curateurs de données pour LLM, son style a en quelque sorte infusé dans les IA du monde entier
      Wiki Malkiat Singh

    • (En bref) Ça semble inévitable

    • On dirait que 樣 prépare sans doute déjà le mème « ChatGPT (Japan) » XD

    • Mais le data labeling est distinct des données d’entraînement servant à la génération de texte des LLM. Il y a beaucoup de malentendus à ce sujet

  • J’ai lu le guide de style du City News Bureau de Chicago de 1897, et il contenait beaucoup de règles intéressantes
    Par exemple, il fallait ne pas confondre « night » et « evening », et éviter d’utiliser « very » sans nécessité
    Ces règles très détaillées montrent bien la sensibilité linguistique de l’époque

    • À noter que LWN continue lui aussi d’éviter « very »
  • Pour moi, le style de ce texte ne ressemble pas du tout à celui de ChatGPT
    Beaucoup voient l’usage du tiret cadratin (—) comme un signe d’IA, mais c’est un indice faible
    Au contraire, ChatGPT produit surtout un ton exagéré et une forme de « grandeur creuse »
    Quand on compare réellement les paragraphes, la version IA paraît plus flamboyante, mais moins sincère

    • Ce texte est captivant. La plupart des sorties de GPT me font décrocher après un seul paragraphe
      Une fois la lecture terminée, il n’en reste aucune information

    • La différence entre les LLM et les humains, c’est la capacité à ne rien dire avec beaucoup de mots

    • Si on demande à GPT « d’améliorer » une phrase déjà très aboutie, il ne peut que la rendre plus verbeuse
      L’original a une ornementation structurelle, mais le sens reste vivant. Le texte produit par l’IA a une faible densité d’information et devient ennuyeux

    • Faire la chasse au tiret cadratin de façon aveugle, c’est le comportement de gens qui ne maîtrisent pas la grammaire

  • Les artistes et les youtubeurs rencontrent le même problème
    Les accusations d’avoir l’air généré par l’IA se multiplient
    Il y aura probablement même des comédiens voix qui perdront leur travail parce que leur voix ressemble trop à une voix d’IA

    • J’ai moi aussi mis en ligne une vidéo Factorio, et certains spectateurs ont commenté que « la voix IA est agaçante »
      Alors que c’était bien moi qui parlais, et mon visage apparaissait même à la fin de la vidéo
      Les voix d’IA sont dépourvues d’émotion et ont une prononciation étrange, donc ça se repère vite
      En ce moment, beaucoup de vidéos tuto sont des « vidéos sans contenu » qui se contentent de lire un script écrit par l’IA
      Du coup, je ne regarde plus que les vidéos de créateurs en qui j’ai confiance
      Lien vers ma vidéo

    • Si la génération d’images par IA utilise sans autorisation le visage de vraies personnes, Pierce Brosnan devrait sans doute être le premier à être indemnisé

  • Dans notre équipe aussi, il y avait un collègue qui parlait comme ChatGPT
    Sur WhatsApp et Zoom, sa façon de s’exprimer était tellement mécanique que j’ai demandé à Meta AI, qui m’a répondu : « On dirait un texte écrit par une IA »
    Mais lui affirmait qu’il n’utilisait pas réellement l’IA, et avec le recul, je me dis que c’est possible

    • Mais confier à une IA le soin de détecter une IA n’a aucun sens. C’est comme lui demander de se juger elle-même

    • Moi aussi, j’ai vécu cette impression de « ChatGPT écrit comme moi »
      J’utilise souvent des listes et du formatting, et je préfère une écriture adaptée aux personnes dyslexiques
      Même dans des notes écrites en 2019, on retrouvait déjà quelque chose qui ressemblait à ChatGPT
      Il m’arrive aussi d’ajouter volontairement des fautes d’orthographe ou d’employer un style non standard

    • Pour parler franchement, si un texte ne se distingue pas de la sortie par défaut de ChatGPT, c’est un mauvais texte
      Même s’il n’a pas réellement été écrit avec une IA, ce style a besoin d’être amélioré
      Dans l’enseignement, il faudrait ne bien noter que les personnes capables d’écrire mieux que l’IA

    • Critiquer un collègue parce qu’il « essaie de paraître intelligent comme ChatGPT », c’est quand même assez drôle

  • La controverse autour du tiret cadratin est intéressante
    Avant, je n’en voyais que lorsque Word le remplaçait automatiquement, et je n’avais jamais essayé de le saisir moi-même
    Je viens seulement d’apprendre qu’il faut faire Alt+0151 sous Windows
    Du coup, pour moi, le tiret cadratin reste un symbole peu familier
    Je comprends maintenant que les gens écrivent dans des environnements très différents

    • En réalité, sur HN, certains utilisaient déjà volontiers le tiret cadratin bien avant ChatGPT
      Classement des utilisateurs de tirets cadratins sur HN

    • Dans emacs, j’active Typo mode pour insérer automatiquement les tirets en/em et les guillemets typographiques

    • J’ai analysé le dataset HN, et l’usage du tiret cadratin n’a pas augmenté depuis la diffusion de l’IA
      En revanche, les structures de phrases parenthétiques excessives sont typiques soit de l’IA, soit d’une écriture maladroite

    • Dans Notes sur macOS, il m’est même arrivé que -- soit automatiquement transformé en , ce qui a fait échouer une commande de terminal

  • J’admire le niveau d’anglais de l’OP
    La plupart des non-natifs apprennent à l’école un anglais littéraire, donc un style formel leur est familier
    J’ai moi aussi reçu ce type d’enseignement en France, mais en travaillant dans l’IT, je suis passé à un anglais direct à l’américaine
    Ce texte n’a pas été écrit par ChatGPT. Il n’y a pas d’ornement inutile, et la densité d’information est élevée
    Les textes d’IA me font souvent sauter plus de la moitié, alors qu’ici, je n’avais pas envie de manquer un seul mot

  • C’est une sorte de malédiction des gens qui écrivent bien
    ChatGPT a été conçu pour imiter une « bonne écriture », donc plus quelqu’un écrit bien, plus il risque d’être pris pour une IA
    J’ai même vu des textes remplis de fautes de grammaire se faire attaquer parce qu’ils « sonnaient comme ChatGPT »

    • Il existe des informations publiques selon lesquelles ChatGPT a été entraîné sur de l’anglais professionnel africain
      Article lié
      Si l’on définit le « bien écrit » comme un style verbeux, passe-partout et évitant toute critique, alors oui, c’est vrai

    • En réalité, les LLM n’écrivent pas mieux que les humains
      Ils se trompent encore souvent sur des bases comme « a/an », et utilisent toujours des expressions elliptiques comme « because traffic »
      Quand on voit ça, la capacité humaine à ajuster finement le sens garde clairement l’avantage

    • Le texte de l’OP n’a pas cette impression artificielle propre aux LLM
      L’usage du tiret cadratin y est naturel, et on y sent une émotion personnelle

    • Je déteste le style ChatGPT
      Il fatigue comme un discours marketing et ne laisse qu’une grandiloquence creuse
      Ce genre de texte épuise le lecteur et transmet moins bien l’information
      Je suis surpris qu’on enseigne ce style au Kenya

  • La formule « Je n’écris pas comme ChatGPT, c’est ChatGPT qui écrit comme moi » est frappante
    Au fond, nous sommes de plus en plus destinés à parler et écrire comme ChatGPT
    Les enfants confient leurs devoirs à l’IA, les adultes leurs CV et même leurs consultations, et jusque dans les conversations on finit par adopter un ton du genre : « C’est vrai, je vais te résumer ça en trois points »

    • (emoji étoile dans les yeux) « Exactement, Jim ! »
      (emoji coche) Ajoutez encore plus d’emojis — les humains adorent les emojis
      (emoji croix rouge) Évitez les mots négatifs comme « bullshit »
      (emoji pouce levé) Bientôt, cela dépassera l’apprentissage par feedback humain (sourire)
 
yinn27 2025-12-16

C'est un texte intéressant.