NVIDIA Nemotron-Personas-Korea - jeu de données synthétique d’un million de personas basé sur la dis

Premier jeu de données de personas en coréen à grande échelle reflétant les distributions réelles démographiques, géographiques et de personnalité à partir de données publiques de Statistics Korea, de la Cour suprême de Corée et du Service national d’assurance maladie, entre autres
1 million d’enregistrements comprenant 7 millions de personas, structurés en 26 champs tels que le nom, le sexe, l’âge, la situation matrimoniale, le niveau d’études, la profession et la zone de résidence
Créé à l’aide de NeMo Data Designer, un système de génération de données synthétiques de niveau entreprise, et du modèle google/gemma-4-31B-it
Contribue à réduire les biais des modèles d’IA souveraine en reflétant plus fidèlement que les jeux de données de personas existants les personnes âgées, les zones rurales ainsi que la diversité des niveaux d’études et des professions
Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales

Problèmes des personas coréens générés par les LLM existants

Un persona est une description des caractéristiques, centres d’intérêt, traits de personnalité ou professions propres à un individu, et un jeu de données de personas doit refléter correctement les caractéristiques culturelles et de distribution du groupe concerné
Même lorsqu’on demande à des LLM étrangers de « générer des profils de personnes réalistes et variés de la société coréenne », les résultats sont gravement déformés
- 40 % des personas générés choisissent la salade comme plat préféré, ou produisent des résultats irréalistes comme « J’exploite un verger de pommiers à Andong, dans le Gyeongsang du Nord »
En échantillonnant aléatoirement 2 000 personas coréens avec Claude Opus 4.7, un biais extrême a été observé dans la distribution des professions, avec 77,6 % générés comme “agriculteur cultivant le yuzu”
Avec GPT-5.4, 90,1 % étaient générés comme « aides-soignants »
Il existe des biais incompatibles avec la réalité coréenne dans tous les aspects, y compris la répartition urbaine, les structures familiales, les formes d’occupation du logement et les préférences alimentaires

Vue d’ensemble et objectif du jeu de données

Jeu de données open source de personas synthétiques conçu pour refléter largement la diversité et les caractéristiques de la population sud-coréenne
Rédigé en coréen pour être facilement lisible par tous
L’objectif principal est d’atténuer les données manquantes et les biais potentiels dans les données d’entraînement lors de la construction de systèmes d’IA souveraine
L’accent est mis sur la réduction des biais des jeux de données de personas existants utilisés pour générer des données synthétiques, en particulier sur les axes de l’âge, de la région, du niveau d’études et de la profession

Sources de données et méthode de production

Utilisation de données de recensement de KOSIS (portail national de statistiques de Statistics Korea) liées au sexe, à la région, à l’industrie, à la profession, aux voyages et aux loisirs
Utilisation des données de la Cour suprême sur l’année de naissance, le sexe et les noms, des informations d’examen de santé du Service national d’assurance maladie, ainsi que des résultats de l’enquête sur les comportements de consommation alimentaire de l’Institut coréen d’économie rurale
NAVER Cloud a fourni des données initiales et une expertise métier lors de la phase de conception
Utilisation d’un modèle graphique probabiliste (PGM) propriétaire, du modèle google/gemma-4-31B-it sous licence Apache-2.0, ainsi que des méthodes de validation et d’évaluation de NeMo Data Designer
Couvre le nom, l’âge, le sexe, la région, la situation matrimoniale, la famille, le logement, le niveau d’études, le domaine d’études, l’activité économique, le revenu, le secteur d’activité, la catégorie professionnelle, la tension artérielle, la glycémie, le tour de taille, l’IMC, les voyages, les loisirs, le type de restaurant préféré, ainsi que la fréquence de livraison et de repas à l’extérieur
Toutes les données reflètent des distributions réelles, mais sont entièrement synthétiques ; toute ressemblance avec des personnes réelles est fortuite

Taille et composition du jeu de données

1 million d’enregistrements représentant au total 1,7 milliard de tokens (dont 1 milliard pour les personas)
26 champs : 7 champs de persona, 6 champs d’attributs de persona, 12 champs de contexte démographique et géographique, et 1 identifiant unique
Couverture administrative complète de 17 villes et provinces, et 252 villes, districts et arrondissements
Environ 209 000 combinaisons de noms uniques (118 patronymes, 21 400 prénoms)
7 types de persona : profession, sport, art, voyage, nourriture, famille, résumé
Attributs de persona supplémentaires : contexte culturel, compétences et expertise, objectifs de carrière et aspirations, hobbies et centres d’intérêt

Distribution des noms

Les données publiques actuellement disponibles sur les noms en Corée sont limitées à la période postérieure à 2008
Nemotron-Personas-Korea est le premier jeu de données public fondé sur l’intégralité des données de noms coréens depuis 1940
Il résout le problème des attributions de noms anachroniques, comme « Kim Ha-yul, 82 ans ? » ou « Kim Sun-ja, 21 ans ? »
Dans la distribution des patronymes, les cinq premiers — Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jung (4,8 %), Choi (4,7 %) — représentent environ 54 % du total
Les prénoms reflètent les tendances générationnelles de dénomination selon le sexe et l’année de naissance
- Femmes : cohabitation de prénoms de générations plus âgées comme Young-sook, Jung-sook, Soon-ja, et de prénoms de générations plus jeunes comme Ji-young, Yoo-jin, Ji-hyun
- Hommes : des prénoms modernes comme Ji-hoon, Hyun-woo et Joon-ho figurent parmi les plus fréquents
Le nom complet le plus fréquent est Kim Young-sook, en accord avec les résultats d’enquêtes réelles

Distribution des âges

Structure en amphore avec un centre bombé, reflétant fidèlement la structure démographique actuelle marquée à la fois par la baisse de la natalité et le vieillissement
La tranche la plus dense est celle des 50-64 ans (part d’environ 0,09), correspondant à la génération du baby-boom des années 1960-70
Chez les personnes âgées de 70 ans et plus, la proportion de femmes est nettement supérieure à celle des hommes
- Dans la tranche 80-89 ans, la part des femmes est d’environ 1,52 fois celle des hommes

Distribution de la situation matrimoniale

Le taux de célibat dépasse 95 % chez les 19-24 ans, puis diminue de 55 % à 31 % dans la trentaine, en cohérence avec la tendance au mariage tardif autour de 31-33 ans en moyenne pour le premier mariage
La part des personnes mariées monte à 64 % à partir de 35 ans et atteint un pic de 78 % à la fin de la cinquantaine
Le veuvage augmente fortement à partir de la soixantaine, atteignant 66 % à la fin de la huitantaine et 74 à 81 % dans la nonantaine
Le divorce est le plus élevé, autour de 12 %, entre la cinquantaine et le début de la soixantaine, en accord avec la tendance aux divorces gris

Distribution des types de foyer

Dans toutes les tranches d’âge, les foyers couple + enfants célibataires représentent la part la plus importante, avec un pic à 63,6 % à 19 ans
Après la cinquantaine, les foyers de couple augmentent fortement pour culminer à 45,7 % entre 65 et 69 ans
Les foyers d’une seule personne présentent un profil bimodal, au début de la vingtaine (15-22 %) et après 75 ans (21-32 %)
Les foyers mère + enfants célibataires (5-14 %) sont plus nombreux que les foyers père + enfants célibataires (2-5 %), confirmant une asymétrie de genre dans les familles monoparentales

Distribution du niveau d’études

Chez les jeunes générations de 20 à 34 ans, la part des diplômés d’université en 4 ans dépasse 50 % ; en incluant les établissements de cycle court, environ 75 % ont fait des études supérieures
Chez les 80 ans et plus, l’absence de scolarisation (36 %) et l’école primaire (37 %) représentent 73 % du total
Par région, la part des titulaires d’une licence ou plus est la plus élevée à Sejong (49,0 %), Séoul (45,1 %) puis Daejeon (39,7 %)
- À Sejong, cela s’explique par l’arrivée de fonctionnaires et de personnels de recherche hautement qualifiés à la suite du transfert du complexe gouvernemental de Sejong

Distribution des professions

Les professions spécialisées et les emplois de bureau constituent la part la plus importante, reflétant une économie de services et fondée sur la connaissance
Dans les emplois de vente, le vendeur en shopping en ligne arrive en tête (19,8 %), illustrant le poids élevé du e-commerce
Dans les emplois non qualifiés, forte concentration sur les gardiens d’immeuble (21,3 %) et les agents d’entretien d’immeuble (16,0 %)
Les militaires représentent environ 1 % de l’ensemble des personnes en emploi, dont plus des deux tiers dans l’armée de terre

Contraintes techniques et limites

En raison des contraintes réalistes liées à la disponibilité et à l’actualité des données publiques ainsi qu’au modèle PGM, des hypothèses d’indépendance entre certaines variables ont été appliquées
- Exemple : lors de l’attribution de professions détaillées, il est supposé que le sexe, le revenu, le niveau d’études et la spécialité influencent indépendamment le résultat, sans prendre en compte leurs interactions
Les statistiques complètes sur le genre (gender) n’existent pas dans les données publiques coréennes et n’ont donc pas été intégrées
Seuls les personas d’adultes de 19 ans et plus sont inclus
Les personas liés à des clients entreprise dans la finance, la santé, etc. sont exclus

Améliorations par rapport à une approche dépendante uniquement des LLM

En ne s’appuyant que sur des LLM, la distribution urbaine était biaisée vers Suncheon ou Changwon, alors que Nemotron-Personas-Korea reflète une distribution proportionnelle à la population réelle, avec par exemple Hwaseong et Namyangju dans la province de Gyeonggi, ou Songpa à Séoul
Les structures familiales passent d’un schéma centré sur les foyers d’une seule personne à des formes variées : vie avec le conjoint, avec conjoint et enfants, avec les parents, etc.
Les formes d’occupation du logement ne sont plus à 100 % orientées vers la propriété, mais reflètent les proportions réelles entre propriétaires et locataires
La distribution alimentaire ne se limite plus à la salade, mais reflète une culture culinaire réelle : bibimbap, cuisine japonaise, poulet, galbi, samgyeopsal, tteokbokki, snacks coréens, pain, doenjang-jjigae, jajangmyeon, etc.

Exemples de prise en compte culturelle

« Jung-jun, 33 ans, membre de la génération kangourou, qui se détend après le travail autour de samgyeopsal et de soju avec ses collègues » — réside à Songpa-gu à Séoul, diplômé d’une université en 4 ans, célibataire, vivant avec ses parents : reflet du phénomène de la génération kangourou dans la société coréenne
« Kim Chun-hee, 73 ans, à Ulsan, qui aime les chansons de Shim Soo-bong et partager des photos dans les groupes de discussion familiaux » — femme, sans scolarisation, mariée, sans emploi : reflet de la population féminine âgée

Pourquoi les jeux de données de personas aident les LLM

Chaque individu possède des connaissances propres, et un persona est un phénotype qui condense ces connaissances propres
- Exemple : un persona d’électricien peut servir d’intermédiaire pour faire émerger des connaissances liées à l’électricité depuis un LLM
Dans les données synthétiques, la diversité est un indicateur extrêmement important, et l’être humain en est la meilleure source
Il est possible de générer divers jeux de données d’apprentissage synthétiques par persona sous la forme « crée un problème de raisonnement logique lié à {persona donné} »

Cas d’usage réels

Amélioration générale des performances d’utilisation d’outils : on fournit au couple utilisateur-LLM à la fois un ensemble d’outils et un persona pour la synthèse de données et l’apprentissage. Nemotron-Nano-9B-v2-Japanese a repris cette méthodologie et a atteint la 1re place du classement Nejumi. Une méthode similaire a aussi été introduite dans Nemotron Nano v3 et Super v3
Amélioration de la sûreté des modèles : utilisé comme données d’amorçage pour le jeu de données Sensitive-safety-category-refusals (SSCR). Le jeu de données SSCR est inclus dans nemotron-safety-blend

Utilisation et licence

Chargement possible via la bibliothèque Python datasets avec load_dataset("nvidia/Nemotron-Personas-Korea")
Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales
Une version étendue utilisable directement dans NeMo Data Designer est également proposée séparément

NVIDIA Nemotron-Personas-Korea - jeu de données synthétique d’un million de personas basé sur la distribution réelle de la population sud-coréenne

Problèmes des personas coréens générés par les LLM existants

Vue d’ensemble et objectif du jeu de données

Sources de données et méthode de production

Taille et composition du jeu de données

Distribution des noms

Distribution des âges

Distribution de la situation matrimoniale

Distribution des types de foyer

Distribution du niveau d’études

Distribution des professions

Contraintes techniques et limites

Améliorations par rapport à une approche dépendante uniquement des LLM

Exemples de prise en compte culturelle

Pourquoi les jeux de données de personas aident les LLM

Cas d’usage réels

Utilisation et licence

10 commentaires

NVIDIA Nemotron-Personas-Korea - jeu de données synthétique d’un million de personas basé sur la distribution réelle de la population sud-coréenne

Problèmes des personas coréens générés par les LLM existants

Vue d’ensemble et objectif du jeu de données

Sources de données et méthode de production

Taille et composition du jeu de données

Distribution des noms

Distribution des âges

Distribution de la situation matrimoniale

Distribution des types de foyer

Distribution du niveau d’études

Distribution des professions

Contraintes techniques et limites

Améliorations par rapport à une approche dépendante uniquement des LLM

Exemples de prise en compte culturelle

Pourquoi les jeux de données de personas aident les LLM

Cas d’usage réels

Utilisation et licence

À lire aussi

10 commentaires