Publication du rapport technique sur Kanana, le modèle de langage de Kakao

(tech.kakao.com)

10 points par GN⁺ 2025-02-27 | 3 commentaires | Partager sur WhatsApp

Kakao développe la « famille de modèles Kanana (Kanana Model Family) » avec pour objectif des modèles d’IA optimisés pour l’intégration dans des services, en visant à la fois de hautes performances et une bonne efficacité en termes de coûts
L’entraînement du très grand modèle de langage « Kanana Flag » est terminé, et la gamme de modèles de langage, comprenant notamment Kanana Essence et Kanana Nano, est désormais complète
Afin de contribuer à l’écosystème de recherche en IA et de collaborer avec la communauté mondiale de l’IA, Kakao publie en open source le modèle « Kanana Nano 2.1B » (base, instruct, embedding)

1. Des performances coréen-anglais de très haut niveau à l’échelle mondiale

Kakao a expérimenté diverses techniques d’entraînement afin de développer un modèle compétitif à l’échelle mondiale et d’obtenir les meilleures performances possibles dans des ressources limitées
Grâce à l’optimisation des ressources d’entraînement, Kanana Flag a réduit les coûts d’entraînement de plus de 50 % par rapport à des modèles concurrents tout en atteignant des performances de pointe (SOTA)
Sur les benchmarks en anglais (MMLU, MT-Bench), il a montré des performances comparables à celles de modèles mondiaux, tandis que sur les benchmarks en coréen (KMMLU, KoMT-Bench), il a démontré des performances écrasantes face aux modèles concurrents
Résumé des performances sur les benchmarks
- Performances en dialogue et exécution de requêtes
  - Kanana Flag 32.5B a obtenu des scores élevés face aux modèles concurrents dans les dialogues en anglais et en coréen
  - Il s’est particulièrement distingué dans les dialogues coréens fondés sur les connaissances (KoMT-Bench) et l’évaluation du raisonnement logique (LogicKor)
- Performances en connaissances, code et mathématiques
  - Le modèle a obtenu des scores élevés dans les évaluations de connaissances en anglais (81.08) et en coréen (64.19), avec des résultats supérieurs à ceux des modèles concurrents
  - Il a également montré une grande précision en complétion de code et en résolution de problèmes de code, et a atteint un excellent score de 90.83 en mathématiques de base (GSM8K)

2. Grâce à l’efficacité de l’entraînement, un coût inférieur de plus de moitié à celui de modèles de taille comparable

L’entraînement de grands modèles de langage exige d’énormes ressources de calcul, c’est pourquoi Kakao a mis en œuvre une stratégie de pre-training maximisant l’efficacité de l’entraînement
En utilisant une approche de staged pre-training, Kakao a d’abord entraîné des modèles de 8B et 26.8B, puis a construit le modèle Kanana Nano 2.1B via optimisation
Des techniques de pruning et de distillation ont été utilisées pour optimiser les modèles allégés
La technique de DUS (Depth Up-Scaling) a été appliquée pour développer Kanana Essence 9.8B et Kanana Flag 32.5B
Cela a permis d’optimiser l’entraînement à un coût inférieur de plus de moitié à celui de modèles mondiaux de taille similaire

3. Publication en open source de Kanana Nano 2.1B, un modèle léger haute performance exploitable aussi on-device

En tenant compte des usages des chercheurs et développeurs, Kakao publie en open source les versions base, instruct, embedding de « Kanana Nano 2.1B »
Kanana Nano 2.1B a été conçu pour fonctionner de manière fluide dans des environnements on-device, ce qui le rend exploitable à des fins de recherche et de développement
Compte tenu du coût élevé des grands modèles et de la faible précision des petits modèles, Kakao a choisi de publier la taille la plus pratique
Malgré sa taille relativement réduite, le modèle offre des performances comparables à celles de modèles mondiaux et ouvre la voie à de nombreuses applications
Il peut toutefois montrer certaines limites sur des tâches difficiles comme le raisonnement complexe ou la résolution de problèmes mathématiques, mais Kakao prévoit de soutenir les chercheurs et développeurs afin qu’ils puissent mener divers travaux à partir de cette base

Conclusion

À travers ce rapport technique, Kakao présente l’ensemble de la gamme de modèles de langage Kanana ainsi que le modèle open source Kanana Nano 2.1B
À l’avenir, l’entreprise prévoit d’intégrer des technologies fondées sur l’apprentissage par renforcement (RL) afin de renforcer les capacités de reasoning, ainsi que les performances en mathématiques et en code
Grâce au Continual Learning, elle compte améliorer le modèle pour qu’il puisse apprendre en continu à partir de nouvelles données tout en conservant les acquis précédents
Kakao prévoit également de faire progresser les technologies d’Alignment afin de renforcer la capacité à exécuter les demandes des utilisateurs et de permettre à l’IA de comprendre et dialoguer de façon plus naturelle
À terme, le modèle Kanana évoluera vers une IA multimodale, capable de voir, entendre, parler et communiquer intuitivement comme un humain
Kakao entend continuer à relever ce défi pour que l’IA apporte de la valeur au quotidien des utilisateurs et pour renforcer sa compétitivité technologique

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] Pruning : technique consistant à élaguer les composants d’un modèle d’IA pour ne conserver que les éléments importants
[2] Distillation : technique consistant à transmettre les connaissances d’un grand modèle à un plus petit
[3] Depth Up-Scaling : méthode qui augmente efficacement l’échelle d’un modèle en empilant davantage de couches sur le modèle existant

3 commentaires

rtyu1120 2025-02-27

J’ai regardé quelle était la licence, et c’est du CC BY-NC-ND 4.0..?? Si c’est NonCommercial, ça veut dire que les entreprises autres que Kakao ne doivent pas l’utiliser... Je ne vois pas bien quelle est l’intention.

bobross0 2025-03-13

mdrrrrr

cosine20 2025-03-03

Hahaha