75 points par GN⁺ 2026-04-27 | 10 commentaires | Partager sur WhatsApp
  • Premier jeu de données de personas en coréen à grande échelle reflétant les distributions réelles démographiques, géographiques et de personnalité à partir de données publiques de Statistics Korea, de la Cour suprême de Corée et du Service national d’assurance maladie, entre autres
  • 1 million d’enregistrements comprenant 7 millions de personas, structurés en 26 champs tels que le nom, le sexe, l’âge, la situation matrimoniale, le niveau d’études, la profession et la zone de résidence
  • Créé à l’aide de NeMo Data Designer, un système de génération de données synthétiques de niveau entreprise, et du modèle google/gemma-4-31B-it
  • Contribue à réduire les biais des modèles d’IA souveraine en reflétant plus fidèlement que les jeux de données de personas existants les personnes âgées, les zones rurales ainsi que la diversité des niveaux d’études et des professions
  • Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales

Problèmes des personas coréens générés par les LLM existants

  • Un persona est une description des caractéristiques, centres d’intérêt, traits de personnalité ou professions propres à un individu, et un jeu de données de personas doit refléter correctement les caractéristiques culturelles et de distribution du groupe concerné
  • Même lorsqu’on demande à des LLM étrangers de « générer des profils de personnes réalistes et variés de la société coréenne », les résultats sont gravement déformés
    • 40 % des personas générés choisissent la salade comme plat préféré, ou produisent des résultats irréalistes comme « J’exploite un verger de pommiers à Andong, dans le Gyeongsang du Nord »
  • En échantillonnant aléatoirement 2 000 personas coréens avec Claude Opus 4.7, un biais extrême a été observé dans la distribution des professions, avec 77,6 % générés comme “agriculteur cultivant le yuzu”
  • Avec GPT-5.4, 90,1 % étaient générés comme « aides-soignants »
  • Il existe des biais incompatibles avec la réalité coréenne dans tous les aspects, y compris la répartition urbaine, les structures familiales, les formes d’occupation du logement et les préférences alimentaires

Vue d’ensemble et objectif du jeu de données

  • Jeu de données open source de personas synthétiques conçu pour refléter largement la diversité et les caractéristiques de la population sud-coréenne
  • Rédigé en coréen pour être facilement lisible par tous
  • L’objectif principal est d’atténuer les données manquantes et les biais potentiels dans les données d’entraînement lors de la construction de systèmes d’IA souveraine
  • L’accent est mis sur la réduction des biais des jeux de données de personas existants utilisés pour générer des données synthétiques, en particulier sur les axes de l’âge, de la région, du niveau d’études et de la profession

Sources de données et méthode de production

  • Utilisation de données de recensement de KOSIS (portail national de statistiques de Statistics Korea) liées au sexe, à la région, à l’industrie, à la profession, aux voyages et aux loisirs
  • Utilisation des données de la Cour suprême sur l’année de naissance, le sexe et les noms, des informations d’examen de santé du Service national d’assurance maladie, ainsi que des résultats de l’enquête sur les comportements de consommation alimentaire de l’Institut coréen d’économie rurale
  • NAVER Cloud a fourni des données initiales et une expertise métier lors de la phase de conception
  • Utilisation d’un modèle graphique probabiliste (PGM) propriétaire, du modèle google/gemma-4-31B-it sous licence Apache-2.0, ainsi que des méthodes de validation et d’évaluation de NeMo Data Designer
  • Couvre le nom, l’âge, le sexe, la région, la situation matrimoniale, la famille, le logement, le niveau d’études, le domaine d’études, l’activité économique, le revenu, le secteur d’activité, la catégorie professionnelle, la tension artérielle, la glycémie, le tour de taille, l’IMC, les voyages, les loisirs, le type de restaurant préféré, ainsi que la fréquence de livraison et de repas à l’extérieur
  • Toutes les données reflètent des distributions réelles, mais sont entièrement synthétiques ; toute ressemblance avec des personnes réelles est fortuite

Taille et composition du jeu de données

  • 1 million d’enregistrements représentant au total 1,7 milliard de tokens (dont 1 milliard pour les personas)
  • 26 champs : 7 champs de persona, 6 champs d’attributs de persona, 12 champs de contexte démographique et géographique, et 1 identifiant unique
  • Couverture administrative complète de 17 villes et provinces, et 252 villes, districts et arrondissements
  • Environ 209 000 combinaisons de noms uniques (118 patronymes, 21 400 prénoms)
  • 7 types de persona : profession, sport, art, voyage, nourriture, famille, résumé
  • Attributs de persona supplémentaires : contexte culturel, compétences et expertise, objectifs de carrière et aspirations, hobbies et centres d’intérêt

Distribution des noms

  • Les données publiques actuellement disponibles sur les noms en Corée sont limitées à la période postérieure à 2008
  • Nemotron-Personas-Korea est le premier jeu de données public fondé sur l’intégralité des données de noms coréens depuis 1940
  • Il résout le problème des attributions de noms anachroniques, comme « Kim Ha-yul, 82 ans ? » ou « Kim Sun-ja, 21 ans ? »
  • Dans la distribution des patronymes, les cinq premiers — Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jung (4,8 %), Choi (4,7 %) — représentent environ 54 % du total
  • Les prénoms reflètent les tendances générationnelles de dénomination selon le sexe et l’année de naissance
    • Femmes : cohabitation de prénoms de générations plus âgées comme Young-sook, Jung-sook, Soon-ja, et de prénoms de générations plus jeunes comme Ji-young, Yoo-jin, Ji-hyun
    • Hommes : des prénoms modernes comme Ji-hoon, Hyun-woo et Joon-ho figurent parmi les plus fréquents
  • Le nom complet le plus fréquent est Kim Young-sook, en accord avec les résultats d’enquêtes réelles

Distribution des âges

  • Structure en amphore avec un centre bombé, reflétant fidèlement la structure démographique actuelle marquée à la fois par la baisse de la natalité et le vieillissement
  • La tranche la plus dense est celle des 50-64 ans (part d’environ 0,09), correspondant à la génération du baby-boom des années 1960-70
  • Chez les personnes âgées de 70 ans et plus, la proportion de femmes est nettement supérieure à celle des hommes
    • Dans la tranche 80-89 ans, la part des femmes est d’environ 1,52 fois celle des hommes

Distribution de la situation matrimoniale

  • Le taux de célibat dépasse 95 % chez les 19-24 ans, puis diminue de 55 % à 31 % dans la trentaine, en cohérence avec la tendance au mariage tardif autour de 31-33 ans en moyenne pour le premier mariage
  • La part des personnes mariées monte à 64 % à partir de 35 ans et atteint un pic de 78 % à la fin de la cinquantaine
  • Le veuvage augmente fortement à partir de la soixantaine, atteignant 66 % à la fin de la huitantaine et 74 à 81 % dans la nonantaine
  • Le divorce est le plus élevé, autour de 12 %, entre la cinquantaine et le début de la soixantaine, en accord avec la tendance aux divorces gris

Distribution des types de foyer

  • Dans toutes les tranches d’âge, les foyers couple + enfants célibataires représentent la part la plus importante, avec un pic à 63,6 % à 19 ans
  • Après la cinquantaine, les foyers de couple augmentent fortement pour culminer à 45,7 % entre 65 et 69 ans
  • Les foyers d’une seule personne présentent un profil bimodal, au début de la vingtaine (15-22 %) et après 75 ans (21-32 %)
  • Les foyers mère + enfants célibataires (5-14 %) sont plus nombreux que les foyers père + enfants célibataires (2-5 %), confirmant une asymétrie de genre dans les familles monoparentales

Distribution du niveau d’études

  • Chez les jeunes générations de 20 à 34 ans, la part des diplômés d’université en 4 ans dépasse 50 % ; en incluant les établissements de cycle court, environ 75 % ont fait des études supérieures
  • Chez les 80 ans et plus, l’absence de scolarisation (36 %) et l’école primaire (37 %) représentent 73 % du total
  • Par région, la part des titulaires d’une licence ou plus est la plus élevée à Sejong (49,0 %), Séoul (45,1 %) puis Daejeon (39,7 %)
    • À Sejong, cela s’explique par l’arrivée de fonctionnaires et de personnels de recherche hautement qualifiés à la suite du transfert du complexe gouvernemental de Sejong

Distribution des professions

  • Les professions spécialisées et les emplois de bureau constituent la part la plus importante, reflétant une économie de services et fondée sur la connaissance
  • Dans les emplois de vente, le vendeur en shopping en ligne arrive en tête (19,8 %), illustrant le poids élevé du e-commerce
  • Dans les emplois non qualifiés, forte concentration sur les gardiens d’immeuble (21,3 %) et les agents d’entretien d’immeuble (16,0 %)
  • Les militaires représentent environ 1 % de l’ensemble des personnes en emploi, dont plus des deux tiers dans l’armée de terre

Contraintes techniques et limites

  • En raison des contraintes réalistes liées à la disponibilité et à l’actualité des données publiques ainsi qu’au modèle PGM, des hypothèses d’indépendance entre certaines variables ont été appliquées
    • Exemple : lors de l’attribution de professions détaillées, il est supposé que le sexe, le revenu, le niveau d’études et la spécialité influencent indépendamment le résultat, sans prendre en compte leurs interactions
  • Les statistiques complètes sur le genre (gender) n’existent pas dans les données publiques coréennes et n’ont donc pas été intégrées
  • Seuls les personas d’adultes de 19 ans et plus sont inclus
  • Les personas liés à des clients entreprise dans la finance, la santé, etc. sont exclus

Améliorations par rapport à une approche dépendante uniquement des LLM

  • En ne s’appuyant que sur des LLM, la distribution urbaine était biaisée vers Suncheon ou Changwon, alors que Nemotron-Personas-Korea reflète une distribution proportionnelle à la population réelle, avec par exemple Hwaseong et Namyangju dans la province de Gyeonggi, ou Songpa à Séoul
  • Les structures familiales passent d’un schéma centré sur les foyers d’une seule personne à des formes variées : vie avec le conjoint, avec conjoint et enfants, avec les parents, etc.
  • Les formes d’occupation du logement ne sont plus à 100 % orientées vers la propriété, mais reflètent les proportions réelles entre propriétaires et locataires
  • La distribution alimentaire ne se limite plus à la salade, mais reflète une culture culinaire réelle : bibimbap, cuisine japonaise, poulet, galbi, samgyeopsal, tteokbokki, snacks coréens, pain, doenjang-jjigae, jajangmyeon, etc.

Exemples de prise en compte culturelle

  • « Jung-jun, 33 ans, membre de la génération kangourou, qui se détend après le travail autour de samgyeopsal et de soju avec ses collègues » — réside à Songpa-gu à Séoul, diplômé d’une université en 4 ans, célibataire, vivant avec ses parents : reflet du phénomène de la génération kangourou dans la société coréenne
  • « Kim Chun-hee, 73 ans, à Ulsan, qui aime les chansons de Shim Soo-bong et partager des photos dans les groupes de discussion familiaux » — femme, sans scolarisation, mariée, sans emploi : reflet de la population féminine âgée

Pourquoi les jeux de données de personas aident les LLM

  • Chaque individu possède des connaissances propres, et un persona est un phénotype qui condense ces connaissances propres
    • Exemple : un persona d’électricien peut servir d’intermédiaire pour faire émerger des connaissances liées à l’électricité depuis un LLM
  • Dans les données synthétiques, la diversité est un indicateur extrêmement important, et l’être humain en est la meilleure source
  • Il est possible de générer divers jeux de données d’apprentissage synthétiques par persona sous la forme « crée un problème de raisonnement logique lié à {persona donné} »

Cas d’usage réels

  • Amélioration générale des performances d’utilisation d’outils : on fournit au couple utilisateur-LLM à la fois un ensemble d’outils et un persona pour la synthèse de données et l’apprentissage. Nemotron-Nano-9B-v2-Japanese a repris cette méthodologie et a atteint la 1re place du classement Nejumi. Une méthode similaire a aussi été introduite dans Nemotron Nano v3 et Super v3
  • Amélioration de la sûreté des modèles : utilisé comme données d’amorçage pour le jeu de données Sensitive-safety-category-refusals (SSCR). Le jeu de données SSCR est inclus dans nemotron-safety-blend

Utilisation et licence

  • Chargement possible via la bibliothèque Python datasets avec load_dataset("nvidia/Nemotron-Personas-Korea")
  • Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales
  • Une version étendue utilisable directement dans NeMo Data Designer est également proposée séparément

10 commentaires

 
calmlake79 2026-04-27

J’allais justement le publier aussi sur GeekNews..

https://manyperson.com/

Je suis en train de créer un service de personas lié.
De la même manière, j’ai utilisé les données MDIS et, pour ma part, j’ai exploité Gemini.

 
recast7838 2026-04-27

Merci pour ces informations.

 
rlaaudgjs5638 2026-04-27

Merci pour ces bonnes ressources. C’est donc ainsi que les personas sont construits.

 
dongho42 2026-04-27

C'est utile !

 
civilian 2026-04-27

https://github.com/civilian7/korean-people-persona

Par besoin personnel,
j’ai créé et mis en ligne un programme Python capable de convertir des données publiées en sqlite3,
ainsi qu’un exemple de serveur mcp.

 
nvkzrx 2026-04-27

Il me semble que le taux d'accès à l'université en cursus de 4 ans chez les jeunes de 20 ans ne dépassait pas 50 % jusqu'à une période assez récente, mais on dirait que c'est désormais le cas.

 
nvkzrx 2026-04-27

Il y a beaucoup de statistiques intéressantes.

 
xguru 2026-04-27

Comparés à ce que produisent les LLM étrangers, ces personas paraissent vraiment trop réalistes.

« M. Park Ho-cheol est un conseiller chevronné du centre d’assurance de Wonju qui, casque sur les oreilles, encaisse en silence des dizaines d’appels de réclamation virulents chaque jour et explique des clauses d’assurance complexes aussi simplement que le ferait le voisin d’à côté.

Dans le paysage paisible des rives de l’Imjin à Paju, il a passé des décennies, et après avoir terminé le lycée, il s’est immédiatement lancé sur les chantiers de plomberie, où il a acquis par l’expérience une profonde sagesse de vie. Ces derniers temps, il suit aussi sur son smartphone des tests des derniers appareils électroménagers et des vidéos sur l’actualité du monde, restant attentif aux nouvelles informations. »