60 points par GN⁺ 3 일 전 | 10 commentaires | Partager sur WhatsApp
  • Premier jeu de données de personas en coréen à grande échelle, fondé sur des données publiques de Statistics Korea, de la Cour suprême de Corée et du Service national d’assurance maladie, et reflétant les distributions réelles en matière de démographie, de géographie et de personnalité
  • 1 million d’enregistrements comprenant 7 millions de personas, structurés en 26 champs tels que nom, sexe, âge, situation matrimoniale, niveau d’études, profession et lieu de résidence
  • Créé à l’aide de NeMo Data Designer, un système de génération de données synthétiques de niveau entreprise, ainsi que du modèle google/gemma-4-31B-it
  • Par rapport aux jeux de données de personas existants, il reflète plus fidèlement les personnes âgées, les zones rurales, ainsi que la diversité des niveaux d’études et des professions, contribuant ainsi à réduire les biais des modèles d’IA souveraine
  • Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales

Problèmes des personas coréens générés par les LLM existants

  • Un persona est la description des caractéristiques propres, centres d’intérêt, traits de personnalité ou métiers d’un individu, et un jeu de données de personas doit refléter correctement les caractéristiques culturelles et distributionnelles du groupe concerné
  • Même lorsqu’on demande à un LLM étranger de « générer des profils de personnages réalistes et variés de la société coréenne », les résultats sont gravement déformés
    • Par exemple, 40 % des personas générés choisissent la salade comme plat préféré, ou produisent des résultats peu réalistes comme « j’exploite un verger de pommiers à Andong, dans la province du Gyeongsang du Nord »
  • Un échantillon aléatoire de 2 000 personas coréens générés avec Claude Opus 4.7 a montré un biais extrême dans la distribution des professions, avec 77,6 % de “cultivateurs de yuzu”
  • Dans le cas de GPT-5.4, 90,1 % des personas générés étaient des “aides-soignants”
  • Des biais incompatibles avec la réalité coréenne existent dans tous les aspects, y compris la distribution urbaine, les structures familiales, les formes d’occupation du logement et les préférences alimentaires

Vue d’ensemble et objectif du jeu de données

  • Un jeu de données open source de personas synthétiques conçu pour refléter largement la diversité et les caractéristiques de la population sud-coréenne
  • Rédigé en coréen pour être facilement lisible par tous
  • L’objectif principal est d’atténuer les données manquantes et les biais potentiels dans les données d’entraînement lors de la construction de systèmes d’IA souveraine
  • Il met l’accent sur la correction des biais des jeux de données de personas existants utilisés pour la génération de données synthétiques, notamment selon l’âge, la région, le niveau d’études et la profession

Sources des données et méthode de production

  • Utilisation des données de recensement de KOSIS (portail national des statistiques de Statistics Korea) liées au sexe, à la région, à l’industrie, aux professions, aux voyages et aux loisirs
  • Utilisation des données de la Cour suprême sur l’année de naissance, le sexe et les noms, des informations d’examens de santé du Service national d’assurance maladie, ainsi que des résultats de l’enquête sur les comportements de consommation alimentaire de l’Institut coréen d’économie rurale
  • NAVER Cloud a fourni des données initiales et une expertise métier lors de la phase de conception
  • Production à l’aide d’un modèle graphique probabiliste (PGM) propriétaire, du modèle google/gemma-4-31B-it sous licence Apache-2.0, ainsi que des méthodes de validation et d’évaluation de NeMo Data Designer
  • Couvre notamment le nom, l’âge, le sexe, la région, le mariage, la famille, le logement, le niveau d’études, le domaine de spécialisation, l’activité économique, le revenu, le secteur d’activité, la catégorie professionnelle, la tension artérielle, la glycémie, le tour de taille, l’IMC, les voyages, les loisirs, les types de restaurants préférés, ainsi que la fréquence de livraison et de repas à l’extérieur
  • Toutes les données reflètent des distributions réelles mais sont entièrement synthétiques ; toute ressemblance avec des personnes réelles est fortuite

Taille et composition du jeu de données

  • 1 million d’enregistrements totalisant 1,7 milliard de tokens (dont 1 milliard pour les personas)
  • 26 champs : 7 champs de persona, 6 champs d’attributs de persona, 12 champs de contexte démographique et géographique, et 1 identifiant unique
  • Couverture administrative complète de 17 villes et provinces et 252 municipalités, comtés et districts
  • Plus de 209 000 combinaisons uniques de noms complets (118 noms de famille, 21 400 prénoms)
  • 7 types de personas : profession, sport, art, voyage, alimentation, famille, résumé
  • Attributs supplémentaires des personas : contexte culturel, compétences et expertise, objectifs et aspirations de carrière, loisirs et centres d’intérêt

Distribution des noms

  • Les données publiques actuellement disponibles sur les noms en Corée sont limitées à la période postérieure à 2008
  • Nemotron-Personas-Korea est le premier jeu de données public fondé sur des données exhaustives de noms coréens depuis 1940
  • Il résout les problèmes d’attribution de noms anachroniques, comme « Kim Ha-yul, 82 ans ? » ou « Kim Sun-ja, 21 ans ? »
  • La distribution des noms de famille montre que les cinq principaux — Kim (21,5 %), Lee (14,7 %), Park (8,5 %), Jeong (4,8 %) et Choi (4,7 %) — représentent environ 54 % du total
  • Les prénoms reflètent les tendances générationnelles selon le sexe et l’année de naissance
    • Femmes : coexistence de prénoms plus âgés comme Yeong-suk, Jeong-suk ou Sun-ja, et de prénoms plus jeunes comme Ji-young, Yu-jin ou Ji-hyeon
    • Hommes : des prénoms modernes comme Ji-hoon, Hyeon-woo ou Jun-ho figurent parmi les plus fréquents
  • Le nom complet le plus fréquent est Kim Young-sook, en accord avec les observations réelles

Distribution par âge

  • La structure présente une forme de jarre avec un renflement central, reflétant fidèlement la structure démographique actuelle marquée à la fois par la baisse de la natalité et le vieillissement
  • La tranche la plus dense est celle des 50 à 64 ans (poids d’environ 0,09), correspondant à la génération du baby-boom des années 1960-1970
  • Chez les 70 ans et plus, la proportion de femmes est nettement supérieure à celle des hommes
    • Dans la tranche 80-89 ans, la proportion de femmes est d’environ 1,52 fois celle des hommes

Distribution de l’état matrimonial

  • Le taux de célibat dépasse 95 % chez les 19-24 ans, puis diminue de 55 % à 31 % chez les trentenaires, conformément à la tendance au mariage tardif avec un âge moyen au premier mariage de 31 à 33 ans
  • La proportion de personnes mariées atteint 64 % à partir de 35 ans et culmine à 78 % à la fin de la cinquantaine
  • Le veuvage augmente fortement à partir de la soixantaine, atteignant 66 % à la fin des 80 ans et 74 à 81 % dans les 90 ans
  • Le divorce est le plus élevé, autour de 12 %, entre la cinquantaine et le début de la soixantaine, ce qui correspond à la tendance des divorces tardifs

Distribution des types de foyers

  • Dans toutes les tranches d’âge, les foyers couple + enfants non mariés représentent la part la plus importante, avec un pic à 63,6 % à 19 ans
  • Après 50 ans, les foyers de couple augmentent fortement et culminent à 45,7 % entre 65 et 69 ans
  • Les foyers d’une personne suivent un profil à double pic, au début de la vingtaine (15 à 22 %) et après 75 ans (21 à 32 %)
  • Les foyers mère + enfants non mariés (5 à 14 %) sont plus fréquents que père + enfants non mariés (2 à 5 %), révélant une asymétrie de genre dans les familles monoparentales

Distribution du niveau d’études

  • Chez les 20-34 ans, la proportion de diplômés d’une université en quatre ans dépasse 50 % ; en incluant les établissements courts, environ 75 % ont un niveau d’enseignement supérieur
  • Chez les 80 ans et plus, l’absence de scolarisation (36 %) et l’école primaire (37 %) représentent ensemble 73 % du total
  • Par région, la proportion de titulaires d’un diplôme de licence ou plus est la plus élevée à Sejong (49,0 %), Séoul (45,1 %) et Daejeon (39,7 %)
    • À Sejong, cela s’explique par l’arrivée de fonctionnaires et de chercheurs hautement diplômés après le transfert du complexe administratif gouvernemental de Sejong

Distribution des professions

  • Les professions qualifiées et les emplois de bureau représentent la plus grande part, reflétant une économie fondée sur les services et la connaissance
  • Dans les métiers de la vente, les vendeurs pour le commerce en ligne arrivent en tête avec 19,8 %, ce qui confirme le poids important du e-commerce
  • Dans les emplois non qualifiés, les gardiens d’immeuble (21,3 %) et les agents d’entretien d’immeuble (16,0 %) sont fortement concentrés
  • Les militaires représentent environ 1 % de l’ensemble des actifs occupés, avec plus des deux tiers dans l’armée de terre

Contraintes et limites techniques

  • En raison des contraintes réalistes liées à la disponibilité et à l’actualité des données publiques ainsi qu’au modèle PGM, une hypothèse d’indépendance a été appliquée entre certaines variables
    • Par exemple, pour l’attribution des professions détaillées, on suppose que le sexe, le revenu, le niveau d’études et la spécialisation influencent indépendamment le résultat, sans modéliser leurs interactions
  • Les statistiques complètes sur le genre (gender) n’existent pas dans les données publiques coréennes, et cet aspect n’est donc pas pris en compte
  • Seuls les personas d’adultes âgés de 19 ans et plus sont inclus
  • Les personas liés aux clients entreprise dans des secteurs comme la finance ou la santé sont exclus

Améliorations par rapport à une approche dépendante des LLM

  • Lorsqu’on s’appuie uniquement sur des LLM, la distribution urbaine se concentrait sur des villes comme Suncheon ou Changwon ; Nemotron-Personas-Korea reflète au contraire une distribution proportionnelle à la population réelle, avec notamment Hwaseong (Gyeonggi), Namyangju et Songpa-gu à Séoul
  • Les structures familiales passent d’un schéma centré sur les foyers d’une personne à des formes variées, comme la cohabitation avec un conjoint, avec conjoint et enfants, ou avec les parents
  • Les formes d’occupation du logement ne sont plus limitées à 100 % de propriétaires mais reflètent désormais les proportions réelles entre propriété et location
  • La distribution alimentaire ne se limite plus à la salade, mais reflète une culture alimentaire réelle avec bibimbap, cuisine japonaise, poulet, galbi, samgyeopsal, tteokbokki, bunsik, pain, doenjang-jjigae ou jajangmyeon

Exemples de prise en compte de la culture

  • « Jeong Jun, 33 ans, membre de la génération “kangourou”, qui se détend après le travail autour de samgyeopsal et de soju avec ses collègues » — réside à Songpa-gu à Séoul, diplômé d’une université en quatre ans, célibataire, vivant avec ses parents, ce qui reflète le phénomène des “kangaroo adults” dans la société coréenne
  • « Kim Chun-hui, 73 ans, à Ulsan, qui aime les chansons de Sim Soo-bong et publier des photos dans le chat de groupe familial » — femme, sans scolarisation, mariée, sans emploi, reflétant la population féminine âgée

Pourquoi un jeu de données de personas aide les LLM

  • Chaque personne possède un savoir propre, et le persona en est une expression phénotypique condensée
    • Exemple : un persona d’électricien peut servir d’intermédiaire pour faire émerger des connaissances liées à l’électricité depuis un LLM
  • Dans les données synthétiques, la diversité est un indicateur extrêmement important, et l’être humain en est la meilleure source
  • Il devient possible de générer, pour chaque persona, diverses données d’entraînement synthétiques sous la forme : « crée un problème de raisonnement logique lié à {persona donné} »

Cas d’usage réels

  • Amélioration générale des performances d’usage d’outils : le tool set et le persona sont fournis ensemble à un couple utilisateur-LLM pour la synthèse de données et l’entraînement. Nemotron-Nano-9B-v2-Japanese a repris cette méthodologie et a atteint la 1re place du leaderboard Nejumi. Une approche similaire a aussi été introduite dans Nemotron Nano v3 et Super v3
  • Amélioration de la sûreté des modèles : utilisé comme données seed pour le jeu de données Sensitive-safety-category-refusals (SSCR). Le jeu de données SSCR est inclus dans nemotron-safety-blend

Utilisation et licence

  • Chargement possible avec la bibliothèque Python datasets via load_dataset("nvidia/Nemotron-Personas-Korea")
  • Sous licence CC BY 4.0, librement utilisable à des fins commerciales comme non commerciales
  • Une version étendue utilisable directement dans NeMo Data Designer est également fournie séparément

10 commentaires

 
calmlake79 3 일 전

J’allais justement le publier aussi sur GeekNews..

https://manyperson.com/

Je suis en train de créer un service de personas lié.
De la même manière, j’ai utilisé les données MDIS et, pour ma part, j’ai exploité Gemini.

 
recast7838 2 일 전

Merci pour ces informations.

 
rlaaudgjs5638 2 일 전

Merci pour ces bonnes ressources. C’est donc ainsi que les personas sont construits.

 
dongho42 2 일 전

C'est utile !

 
civilian 2 일 전

https://github.com/civilian7/korean-people-persona

Par besoin personnel,
j’ai créé et mis en ligne un programme Python capable de convertir des données publiées en sqlite3,
ainsi qu’un exemple de serveur mcp.

 
nvkzrx 3 일 전

Il me semble que le taux d'accès à l'université en cursus de 4 ans chez les jeunes de 20 ans ne dépassait pas 50 % jusqu'à une période assez récente, mais on dirait que c'est désormais le cas.

 
nvkzrx 3 일 전

Il y a beaucoup de statistiques intéressantes.

 
xguru 3 일 전

Comparés à ce que produisent les LLM étrangers, ces personas paraissent vraiment trop réalistes.

« M. Park Ho-cheol est un conseiller chevronné du centre d’assurance de Wonju qui, casque sur les oreilles, encaisse en silence des dizaines d’appels de réclamation virulents chaque jour et explique des clauses d’assurance complexes aussi simplement que le ferait le voisin d’à côté.

Dans le paysage paisible des rives de l’Imjin à Paju, il a passé des décennies, et après avoir terminé le lycée, il s’est immédiatement lancé sur les chantiers de plomberie, où il a acquis par l’expérience une profonde sagesse de vie. Ces derniers temps, il suit aussi sur son smartphone des tests des derniers appareils électroménagers et des vidéos sur l’actualité du monde, restant attentif aux nouvelles informations. »