Je suis Kenyan. Je n’écris pas comme ChatGPT. C’est ChatGPT qui écrit comme moi
(marcusolang.substack.com)- Le style d’anglais formel façonné par le système éducatif kényan est régulièrement perçu comme s’il avait été généré par une IA
- L’entraînement structurel à la rédaction en anglais met l’accent sur l’équilibre des phrases, la progression logique et l’usage des connecteurs, produisant ainsi un résultat proche de l’écriture de l’IA
- Ce style est un héritage de l’enseignement de l’anglais britannique à l’époque coloniale, maintenu comme symbole de statut social et de culture
- Le texte souligne le problème des biais des détecteurs d’IA et des modèles de langue, qui jugent l’écriture des non-natifs comme « non humaine »
- Il insiste sur le fait que ce qui se révèle à travers l’écriture n’est pas une machine, mais le produit de l’histoire, de l’éducation et de l’identité linguistique
Le malentendu entre l’IA et l’écriture humaine
- Le point de départ est l’expérience de l’auteur, qui a reçu comme retour sur sa proposition : « on dirait que c’est ChatGPT qui l’a écrite »
- Parce que son style est structuré et logique, il a été jugé « trop peu humain »
- De nombreux auteurs vivent des réactions similaires, et cela est lié à des préjugés envers les écrivains non natifs
- L’auteur explique que si son style ressemble à celui de l’IA, c’est parce que l’IA a appris à partir de leur manière d’être formés à l’écriture
La formation de l’enseignement de l’anglais à la kényane
- L’épreuve de rédaction en anglais du KCPE (Kenya Certificate of Primary Education) est au cœur de l’entraînement à l’écriture
- Pour obtenir une bonne note à cet examen noté sur 40, il faut maîtriser un vocabulaire riche et des structures de phrases complexes
- Les règles de rédaction se résument en trois points
- Commencer par un proverbe ou une formule forte, utiliser un vocabulaire varié, maintenir une structure parfaite
- L’enseignant joue le rôle de « l’algorithme originel » corrigeant grammaire et structure au stylo rouge
- Cet entraînement met l’accent sur une construction de phrase logique et équilibrée, qui se prolonge ensuite au lycée et à l’université
Héritage colonial et hiérarchie de la langue
- L’enseignement de l’anglais au Kenya provient du système linguistique de l’Empire britannique
- Il valorise la correction grammaticale et le registre soutenu selon le standard du « Queen’s English »
- Après l’indépendance, cette langue est restée à la fois langue officielle et symbole de statut social
- La maîtrise d’un anglais soigné est devenue un critère de distinction du niveau d’éducation et de la classe sociale
- En conséquence, les vastes corpus de styles formels appris par l’IA ont fini par prendre une forme proche de celle produite par l’enseignement kényan de l’anglais
Les biais et les limites des détecteurs d’IA
- Les détecteurs d’IA se fondent sur la « perplexity » (prévisibilité) et la « burstiness » (variabilité de la longueur des phrases)
- Une structure de phrase prévisible et un rythme régulier sont considérés comme non humains
- Or, l’éducation kényane valorise précisément ce style prévisible et équilibré comme idéal
- Des recherches montrent que ces détecteurs ont une forte probabilité de classer à tort les textes de non-natifs comme générés par l’IA
- Cela révèle un biais technique qui exclut la diversité linguistique
Redéfinir l’humanité et la langue
- Les textes des écrivains kényans sont le produit de l’éducation, de l’histoire et de la culture, et non d’une machine
- Le texte critique une réalité dans laquelle la norme de l’« écriture humaine » se limite à des expressions informelles et américaines
- Des auteurs de Nairobi, Lagos ou Mumbai partagent eux aussi une tradition d’écriture qui valorise la précision et la logique
- Dire d’un texte qu’il « ressemble à de l’IA » revient à ne pas reconnaître d’autres formes d’humanité
- La conclusion affirme que c’est ainsi qu’écrivent les Kényans, et que cette manière existe depuis longtemps
2 commentaires
Avis Hacker News
Notre génération a appris des enseignants aux élèves des règles implicites de l’écriture
Il fallait toujours commencer la première phrase par un proverbe ou une formule percutante, et employer des tournures comme « strode purposefully » au lieu de mots ordinaires
Mais en étudiant l’écriture à l’université, on m’a peu à peu poussé vers des phrases simples et des formulations courtes
Aujourd’hui, le style à la Hemingway me semble idéal. Le style flamboyant de ChatGPT me fatigue au contraire
Je reconnais le talent de l’auteur, mais je préfère une écriture simple et claire
L’obsession des phrases courtes a abîmé la prose anglaise
Pour la plupart des gens, la simplicité aide, mais la tendance à traiter les longues phrases, les points-virgules et le vocabulaire nuancé comme de la « mauvaise écriture » est un problème
Cette attitude freine la progression des lecteurs comme des auteurs
Cela dit, des expressions comme « proceeded to » restent nulles. Forcer les élèves à utiliser des mots censés les faire paraître « intelligents » est l’une des pires façons d’enseigner
Ma femme est écrivaine, et elle dit que dans les fanfictions ou les romans d’amour, le mot « strode » revient de manière anormalement fréquente. Écrire que tout le monde « avance d’un pas assuré » chaque fois qu’il marche est un trait classique des amateurs
Les styles d’écriture cachent des signaux de classe sociale
Comme le dit l’article, l’anglais qu’on nous a appris était le « Queen’s English » de l’époque impériale, la langue du pouvoir
Maîtriser l’élégance formelle de l’écriture ne servait pas seulement à réussir les examens, mais à prouver qu’on était une « personne civilisée »
Les modes d’écriture ressemblent à des cycles de mode sociale. Quand un style flamboyant se démocratise, les classes supérieures se distinguent à l’inverse par un style plus dépouillé
Le style sobre à la Hemingway, c’est un peu comme un « jean déchiré à 1 000 dollars » : une façon, réservée à ceux qui en ont les moyens, d’avoir l’air volontairement modeste
J’ai travaillé dans l’une des entreprises du Big Three, et le style de ChatGPT est exactement celui des rapports d’autoévaluation qu’on nous apprenait à écrire en interne
L’important pour être promu n’était pas tant les résultats que la capacité à bien « emballer » son récit
Tu es peut-être Américain ? Même dans le monde anglophone, les différences culturelles entre anglais britannique et américain sont importantes
Les Américains sont moins poseurs et plus directs, alors que l’anglais britannique reste plus volontiers flamboyant et ornemental
D’après mon ressenti, le vocabulaire des Britanniques se réduit de génération en génération
L’écriture a deux objectifs
(1) Écrire pour transmettre des idées — plus c’est simple, mieux c’est. Comme dans les essais de Paul Graham, l’information entre dans la tête sans friction
(2) Écrire pour s’exprimer soi-même — un style flamboyant et artistique peut alors convenir
Comme le disait David Foster Wallace, le premier type est une écriture qui communique comme une conversation, tandis que le second ressemble à un journal intime qui crie : « Voilà qui je suis ! »
Il est intéressant de noter qu’une grande partie des données d’entraînement des LLM a été curée au Kenya
Si les données avaient été produites au Japon, ChatGPT aurait peut-être fini ses phrases avec des tournures de type « Don’t you agree? » à la japonaise
Article lié
L’influence de l’auteur de manuels indien Malkiat Singh est importante
Ses manuels servaient de référence au Kenya, et comme ses élèves sont devenus des curateurs de données pour LLM, son style a en quelque sorte infusé dans les IA du monde entier
Wiki Malkiat Singh
(En bref) Ça semble inévitable
On dirait que 樣 prépare sans doute déjà le mème « ChatGPT (Japan) » XD
Mais le data labeling est distinct des données d’entraînement servant à la génération de texte des LLM. Il y a beaucoup de malentendus à ce sujet
J’ai lu le guide de style du City News Bureau de Chicago de 1897, et il contenait beaucoup de règles intéressantes
Par exemple, il fallait ne pas confondre « night » et « evening », et éviter d’utiliser « very » sans nécessité
Ces règles très détaillées montrent bien la sensibilité linguistique de l’époque
Pour moi, le style de ce texte ne ressemble pas du tout à celui de ChatGPT
Beaucoup voient l’usage du tiret cadratin (—) comme un signe d’IA, mais c’est un indice faible
Au contraire, ChatGPT produit surtout un ton exagéré et une forme de « grandeur creuse »
Quand on compare réellement les paragraphes, la version IA paraît plus flamboyante, mais moins sincère
Ce texte est captivant. La plupart des sorties de GPT me font décrocher après un seul paragraphe
Une fois la lecture terminée, il n’en reste aucune information
La différence entre les LLM et les humains, c’est la capacité à ne rien dire avec beaucoup de mots
Si on demande à GPT « d’améliorer » une phrase déjà très aboutie, il ne peut que la rendre plus verbeuse
L’original a une ornementation structurelle, mais le sens reste vivant. Le texte produit par l’IA a une faible densité d’information et devient ennuyeux
Faire la chasse au tiret cadratin de façon aveugle, c’est le comportement de gens qui ne maîtrisent pas la grammaire
Les artistes et les youtubeurs rencontrent le même problème
Les accusations d’avoir l’air généré par l’IA se multiplient
Il y aura probablement même des comédiens voix qui perdront leur travail parce que leur voix ressemble trop à une voix d’IA
J’ai moi aussi mis en ligne une vidéo Factorio, et certains spectateurs ont commenté que « la voix IA est agaçante »
Alors que c’était bien moi qui parlais, et mon visage apparaissait même à la fin de la vidéo
Les voix d’IA sont dépourvues d’émotion et ont une prononciation étrange, donc ça se repère vite
En ce moment, beaucoup de vidéos tuto sont des « vidéos sans contenu » qui se contentent de lire un script écrit par l’IA
Du coup, je ne regarde plus que les vidéos de créateurs en qui j’ai confiance
Lien vers ma vidéo
Si la génération d’images par IA utilise sans autorisation le visage de vraies personnes, Pierce Brosnan devrait sans doute être le premier à être indemnisé
Dans notre équipe aussi, il y avait un collègue qui parlait comme ChatGPT
Sur WhatsApp et Zoom, sa façon de s’exprimer était tellement mécanique que j’ai demandé à Meta AI, qui m’a répondu : « On dirait un texte écrit par une IA »
Mais lui affirmait qu’il n’utilisait pas réellement l’IA, et avec le recul, je me dis que c’est possible
Mais confier à une IA le soin de détecter une IA n’a aucun sens. C’est comme lui demander de se juger elle-même
Moi aussi, j’ai vécu cette impression de « ChatGPT écrit comme moi »
J’utilise souvent des listes et du formatting, et je préfère une écriture adaptée aux personnes dyslexiques
Même dans des notes écrites en 2019, on retrouvait déjà quelque chose qui ressemblait à ChatGPT
Il m’arrive aussi d’ajouter volontairement des fautes d’orthographe ou d’employer un style non standard
Pour parler franchement, si un texte ne se distingue pas de la sortie par défaut de ChatGPT, c’est un mauvais texte
Même s’il n’a pas réellement été écrit avec une IA, ce style a besoin d’être amélioré
Dans l’enseignement, il faudrait ne bien noter que les personnes capables d’écrire mieux que l’IA
Critiquer un collègue parce qu’il « essaie de paraître intelligent comme ChatGPT », c’est quand même assez drôle
La controverse autour du tiret cadratin est intéressante
Avant, je n’en voyais que lorsque Word le remplaçait automatiquement, et je n’avais jamais essayé de le saisir moi-même
Je viens seulement d’apprendre qu’il faut faire Alt+0151 sous Windows
Du coup, pour moi, le tiret cadratin reste un symbole peu familier
Je comprends maintenant que les gens écrivent dans des environnements très différents
En réalité, sur HN, certains utilisaient déjà volontiers le tiret cadratin bien avant ChatGPT
Classement des utilisateurs de tirets cadratins sur HN
Dans emacs, j’active Typo mode pour insérer automatiquement les tirets en/em et les guillemets typographiques
J’ai analysé le dataset HN, et l’usage du tiret cadratin n’a pas augmenté depuis la diffusion de l’IA
En revanche, les structures de phrases parenthétiques excessives sont typiques soit de l’IA, soit d’une écriture maladroite
Dans Notes sur macOS, il m’est même arrivé que
--soit automatiquement transformé en—, ce qui a fait échouer une commande de terminalJ’admire le niveau d’anglais de l’OP
La plupart des non-natifs apprennent à l’école un anglais littéraire, donc un style formel leur est familier
J’ai moi aussi reçu ce type d’enseignement en France, mais en travaillant dans l’IT, je suis passé à un anglais direct à l’américaine
Ce texte n’a pas été écrit par ChatGPT. Il n’y a pas d’ornement inutile, et la densité d’information est élevée
Les textes d’IA me font souvent sauter plus de la moitié, alors qu’ici, je n’avais pas envie de manquer un seul mot
C’est une sorte de malédiction des gens qui écrivent bien
ChatGPT a été conçu pour imiter une « bonne écriture », donc plus quelqu’un écrit bien, plus il risque d’être pris pour une IA
J’ai même vu des textes remplis de fautes de grammaire se faire attaquer parce qu’ils « sonnaient comme ChatGPT »
Il existe des informations publiques selon lesquelles ChatGPT a été entraîné sur de l’anglais professionnel africain
Article lié
Si l’on définit le « bien écrit » comme un style verbeux, passe-partout et évitant toute critique, alors oui, c’est vrai
En réalité, les LLM n’écrivent pas mieux que les humains
Ils se trompent encore souvent sur des bases comme « a/an », et utilisent toujours des expressions elliptiques comme « because traffic »
Quand on voit ça, la capacité humaine à ajuster finement le sens garde clairement l’avantage
Le texte de l’OP n’a pas cette impression artificielle propre aux LLM
L’usage du tiret cadratin y est naturel, et on y sent une émotion personnelle
Je déteste le style ChatGPT
Il fatigue comme un discours marketing et ne laisse qu’une grandiloquence creuse
Ce genre de texte épuise le lecteur et transmet moins bien l’information
Je suis surpris qu’on enseigne ce style au Kenya
La formule « Je n’écris pas comme ChatGPT, c’est ChatGPT qui écrit comme moi » est frappante
Au fond, nous sommes de plus en plus destinés à parler et écrire comme ChatGPT
Les enfants confient leurs devoirs à l’IA, les adultes leurs CV et même leurs consultations, et jusque dans les conversations on finit par adopter un ton du genre : « C’est vrai, je vais te résumer ça en trois points »
(emoji coche) Ajoutez encore plus d’emojis — les humains adorent les emojis
(emoji croix rouge) Évitez les mots négatifs comme « bullshit »
(emoji pouce levé) Bientôt, cela dépassera l’apprentissage par feedback humain (sourire)
C'est un texte intéressant.