Mi:dm 2.0 - le LLM open source développé en interne par KT

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" est un modèle open source utilisable à des fins commerciales qui reflète les caractéristiques linguistiques et culturelles de la société coréenne Il utilise une stratégie d’optimisation multicouche fondée sur la sélection de données coréennes de haute qualité, la génération de données synthétiques, le curriculum learning et un tokenizer propriétaire spécialisé pour le coréen Trois modèles sont proposés : mini (2.3B) pour l’on-device, base (11B) qui équilibre performances et efficacité, et pro (41B, publication prévue) de niveau frontier Mi:dm 2.0 Mini (2.3B) : modèle léger, optimisé pour les environnements embarqués et les usages spécialisés Mi:dm 2.0 Base (11.5B) : grand modèle généraliste, dont les performances sont renforcées en approfondissant un modèle 8B existant via la technique Depth-up Scaling Base et Mini prennent tous deux en charge 32K tokens en entrée Il affiche des performances de tout premier plan sur des benchmarks coréens comme KMMLU et HAERAE, et est publié sous licence MIT, permettant un usage libre en recherche comme dans le commerce Composition des données et stratégie Priorité à l’acquisition de documents coréens de haute qualité, sélectionnés selon des critères de cohérence contextuelle, lisibilité et innocuité Usage de données synthétiques (traduction, génération de supports pédagogiques à partir de mots-clés, Chain-of-Thought, etc.) pour assurer la diversité des domaines Réduction des déséquilibres dans les données d’entraînement grâce au curriculum learning et au domain balancing Tokenizer optimisé pour le coréen afin d’améliorer l’efficacité de compression et la prise en compte de la structure de la langue Système de classification des données Application d’un système de classification multidimensionnel selon la langue, le domaine, la source des données et l’expression/style 6 grands domaines (humanités, STEM, sciences appliquées, santé/alimentation, vie quotidienne/culture, autres) et 20 sous-domaines Plus de 85,7 % des données sont naturelles (organic), et 14 % sont des données synthétiques Pipeline de contrôle qualité Filtrage en 8 étapes de documents web à grande échelle : déduplication, heuristiques, perplexity, détection/correction de corruption de caractères, filtre qualité basé sur un modèle, filtre de toxicité, doublons de lignes, anonymisation des PII, etc. Application d’un nettoyage et de règles spécifiques à chaque source (par exemple : actualités, documents juridiques, articles académiques, etc.) Génération de données synthétiques Pour les domaines peu couverts comme le STEM ou l’économie, renforcement des données en synthétisant en coréen des manuels, explications, problèmes, etc. à partir de données open source de haute fiabilité servant de base Même les documents web inutilisables (non admissibles) sont exploités après extraction et réécriture de leurs seuls sujets essentiels La diversité structurelle des documents web en anglais est convertie et étendue en coréen afin d’obtenir des données longues pour la QA et la rédaction Les données Chain-of-Thought renforcent l’apprentissage du raisonnement étape par étape en mathématiques, code, etc. Architecture du modèle et entraînement Architecture Transformer decoder-only Base : modèle 8B → Depth-up Scaling (32→48 couches) → extension à 11.5B, avec apprentissage continu en 2 étapes sur des données de haute qualité Mini : allègement des connaissances de Base via width pruning et distillation multi-étapes, permettant une inférence efficace Entraînement long-context prenant en charge jusqu’à 32 768 tokens en entrée Intégration de technologies récentes comme GQA, SiLU, RoPE Retours d’usage et articles de présentation Modèle d’IA de type coréen : retour d’usage sur KT Mi:dm 2.0 Présentation de Midm 2.0, l’IA coréenne créée par KT Essai de Mi:dm 2.0, l’IA de type coréen de KT Page de présentation de Mi:dm 2.0 par KT Support promotionnel publié lors du lancement de Mi:dm 1.0 par KT - Mi:dm, au-delà de la raison et de l’émotion, exprimer la personnalité

(huggingface.co)

10 points par xguru 2025-07-10 | 16 commentaires | Partager sur WhatsApp

"Mi:dm" est un modèle open source utilisable à des fins commerciales qui reflète les caractéristiques linguistiques et culturelles de la société coréenne
Il utilise une stratégie d’optimisation multicouche fondée sur la sélection de données coréennes de haute qualité, la génération de données synthétiques, le curriculum learning et un tokenizer propriétaire spécialisé pour le coréen
Trois modèles sont proposés : mini (2.3B) pour l’on-device, base (11B) qui équilibre performances et efficacité, et pro (41B, publication prévue) de niveau frontier
- Mi:dm 2.0 Mini (2.3B) : modèle léger, optimisé pour les environnements embarqués et les usages spécialisés
- Mi:dm 2.0 Base (11.5B) : grand modèle généraliste, dont les performances sont renforcées en approfondissant un modèle 8B existant via la technique Depth-up Scaling
- Base et Mini prennent tous deux en charge 32K tokens en entrée
Il affiche des performances de tout premier plan sur des benchmarks coréens comme KMMLU et HAERAE, et est publié sous licence MIT, permettant un usage libre en recherche comme dans le commerce

Composition des données et stratégie

Priorité à l’acquisition de documents coréens de haute qualité, sélectionnés selon des critères de cohérence contextuelle, lisibilité et innocuité
Usage de données synthétiques (traduction, génération de supports pédagogiques à partir de mots-clés, Chain-of-Thought, etc.) pour assurer la diversité des domaines
Réduction des déséquilibres dans les données d’entraînement grâce au curriculum learning et au domain balancing
Tokenizer optimisé pour le coréen afin d’améliorer l’efficacité de compression et la prise en compte de la structure de la langue

Système de classification des données
- Application d’un système de classification multidimensionnel selon la langue, le domaine, la source des données et l’expression/style
- 6 grands domaines (humanités, STEM, sciences appliquées, santé/alimentation, vie quotidienne/culture, autres) et 20 sous-domaines
- Plus de 85,7 % des données sont naturelles (organic), et 14 % sont des données synthétiques
Pipeline de contrôle qualité
- Filtrage en 8 étapes de documents web à grande échelle : déduplication, heuristiques, perplexity, détection/correction de corruption de caractères, filtre qualité basé sur un modèle, filtre de toxicité, doublons de lignes, anonymisation des PII, etc.
- Application d’un nettoyage et de règles spécifiques à chaque source (par exemple : actualités, documents juridiques, articles académiques, etc.)
Génération de données synthétiques
- Pour les domaines peu couverts comme le STEM ou l’économie, renforcement des données en synthétisant en coréen des manuels, explications, problèmes, etc. à partir de données open source de haute fiabilité servant de base
- Même les documents web inutilisables (non admissibles) sont exploités après extraction et réécriture de leurs seuls sujets essentiels
- La diversité structurelle des documents web en anglais est convertie et étendue en coréen afin d’obtenir des données longues pour la QA et la rédaction
- Les données Chain-of-Thought renforcent l’apprentissage du raisonnement étape par étape en mathématiques, code, etc.

Architecture du modèle et entraînement

Architecture Transformer decoder-only
Base : modèle 8B → Depth-up Scaling (32→48 couches) → extension à 11.5B, avec apprentissage continu en 2 étapes sur des données de haute qualité
Mini : allègement des connaissances de Base via width pruning et distillation multi-étapes, permettant une inférence efficace
Entraînement long-context prenant en charge jusqu’à 32 768 tokens en entrée
Intégration de technologies récentes comme GQA, SiLU, RoPE

Retours d’usage et articles de présentation

Page de présentation de Mi:dm 2.0 par KT
Support promotionnel publié lors du lancement de Mi:dm 1.0 par KT - Mi:dm, au-delà de la raison et de l’émotion, exprimer la personnalité

16 commentaires

miseenscene 2025-07-11

Je salue l’initiative, mais...
J’espère juste qu’ils ne referont pas le coup de créer une nouvelle organization et de jeter la 1.0 aux oubliettes.

bakyeono 2025-07-11

Rien qu’en voyant le nom, il paraît peu crédible.
Pourquoi avoir mis deux-points au milieu du nom ? Y a-t-il une raison sémantique ? Ou pensent-ils vraiment, par hasard, que ça fait stylé ?
Et si c’est mit:eum, ne faudrait-il pas l’écrire mid:m en alphabet latin ?

xguru 2025-07-11

Il peut y avoir des avis très différents, mais pour ma part, je pense fondamentalement que tous les projets liés à l’IA tentés dans le pays ont du sens. Plutôt que d’évaluer leur niveau en les comparant aux autres, je pense que nous sommes dans une situation où il faut saluer le simple fait d’essayer.

Il est vrai que la réaction a été tardive, et qu’en termes d’argent comme de GPU, nous sommes en position d’infériorité par rapport aux États-Unis et à la Chine. Mais si on les encourage et qu’on les utilise ensemble pour les améliorer, est-ce que cela ne finira pas par devenir meilleur ?

crawler 2025-07-11

Je suis partiellement d’accord.
À mes yeux, créer un wrapper qui utilise une API externe en prétendant que c’est un service d’IA n’apporte aucune productivité et relève surtout d’un business de commissions,
mais quand des entreprises mettent en ligne quelque chose après avoir au moins affiné un modèle, elles le publient finalement en y consacrant leurs propres ressources, donc je ne vois pas de raison de le juger négativement.

En revanche, si elles commencent à recevoir de l’argent de l’extérieur, par exemple de l’État, je pense qu’il sera difficile de ne voir cela que d’un bon œil...

crawler 2025-07-11

> Je pense que créer des wrappers qui se présentent comme des services d’IA tout en utilisant des API externes n’apporte aucune productivité et relève surtout d’un commerce de commissions,

Pour ajouter à cela, même si l’on utilise une API, on peut considérer qu’il y a un vrai résultat si elle est exploitée aussi bien que Manus, mais il ne semble pas encore y avoir en Corée de wrapper de ce niveau.

mssmss 2025-07-11

On ne peut pas se montrer compétitif en se contentant d’améliorer les performances de base.

strn18 2025-07-10

Pourquoi les entreprises coréennes ou le gouvernement se concentrent-ils sur des modèles de langage spécialisés en coréen ? Quand on pense à la tendance actuelle des LLM, qui améliorent leurs performances en s’entraînant sur des données massives à l’échelle d’Internet, j’ai plutôt l’impression qu’un modèle généraliste, indépendamment de la langue, serait plus naturel. Du coup, je ne vois pas vraiment quels avantages concrets peut avoir un LM spécialement optimisé pour le coréen.

ryj0902 2025-07-11

Si l’on pense vraiment que l’IA est le socle de la prochaine génération, il n’est pas souhaitable que des technologies d’infrastructure nationales cruciales dépendent de technologies étrangères… ?

roxie 2025-07-11

Je pense que la technologie d’un autre pays != les données d’un autre pays

dbs0829 2025-07-11

Il est vrai en soi que la qualité des langues peu utilisées par les utilisateurs est plus faible, mais cela ne signifie pas pour autant qu’ils vont chercher à ne rendre le modèle performant qu’en coréen. Il n’y a d’ailleurs pas vraiment de raison pour cela. Et le problème, c’est que nous faisons partie, justement, des utilisateurs de ces langues peu utilisées....

greenday 2025-07-11

Pour parler franchement, c’est parce qu’il n’y a pas de compétitivité.
Le développement de modèles open source de pointe est généralement mené par des équipes de Research Engineers rémunérés à plusieurs milliards de wons par an dans les grandes entreprises technologiques, avec un soutien colossal en ressources GPU. (Par le passé, je me souviens que Meta avait mobilisé 10�00 A100 sur un seul projet, ce qui était, de mémoire, plus que l’ensemble des A100 disponibles en Corée à l’époque.)

En Corée, les effectifs et les ressources GPU investis dans le développement de LLM sont, de façon réaliste, à un niveau qui rend la concurrence mondiale difficile.
Plutôt que de dire que nous sommes particulièrement mauvais, il serait plus juste de considérer que les États-Unis et la Chine sont tout simplement tellement dominants qu’il est difficile de les rattraper.

helio 2025-07-11

Je ne m’y connais pas très bien non plus, mais quand on regarde les étapes de réflexion, il semble que même lorsqu’on pose la question en coréen, cela se fasse parfois en anglais ; si ce processus pouvait se faire en coréen, est-ce qu’on ne pourrait pas obtenir des réponses davantage en phase avec le ressenti local ?

truestar 2025-07-11

N’est-ce pas plutôt un investissement en anticipant les nouvelles IA qui seront développées ou améliorées à l’avenir, ainsi que la montée en niveau des IA existantes ? Comme DeepSeek, par exemple. Si on parvient à insuffler une sensibilité coréenne dans ce type d’IA, cela semble compétitif. Mais c’est une perspective d’avenir.

zihado 2025-07-10

On dirait qu’ils essaient de siphonner l’argent public distribué sans discernement.

clastneo 2025-07-10

Est-ce que ce ne serait pas parce que le coréen s’affiche mal ? C’est pareil avec Gemini, et à l’usage il arrive trop souvent qu’à un moment donné ça bascule dans une autre langue..

cckn1985 2025-07-10

Le nom du modèle d’IA a quelque chose d’assez inquiétant, on dirait un nom tout droit sorti d’un univers post-apocalyptique ou dystopique lol

Mi:dm 2.0 - le LLM open source développé en interne par KT

Composition des données et stratégie

Système de classification des données

Pipeline de contrôle qualité

Génération de données synthétiques

Architecture du modèle et entraînement

Retours d’usage et articles de présentation

À lire aussi

16 commentaires