24 points par lemonmint 2025-03-19 | 9 commentaires | Partager sur WhatsApp
  • Présentation d’EXAONE Deep, un nouveau modèle d’IA de raisonnement développé par LG AI Research
  • Un modèle de raisonnement haute performance, essentiel pour la transition vers l’ère de l’Agentic AI
  • Des capacités de raisonnement remarquables démontrées en mathématiques, en sciences et en programmation
  • Principales caractéristiques :
    • Mathématiques : performances supérieures aux modèles concurrents sur des benchmarks mathématiques de haut niveau (avec des performances équivalentes obtenues avec une taille de modèle plus réduite)
    • Sciences & programmation : 1re place sur les principaux benchmarks (modèles 7.8B et 2.4B)
    • MMLU : meilleures performances parmi les modèles coréens (modèle 32B)
  • Référencé parmi les modèles d’IA notables d’Epoch AI, ce qui valide ses performances (deuxième modèle EXAONE à y figurer après EXAONE 3.5)

Excellentes performances en mathématiques

  • Tous les modèles EXAONE Deep (32B, 7.8B, 2.4B) ont obtenu le meilleur score à l’épreuve de mathématiques du CSAT 2025
  • EXAONE Deep 32B :
    • score de 94.5 au CSAT de mathématiques et de 90.0 à l’AIME 2024
    • performances équivalentes au modèle DeepSeek-R1 (671B) sur l’AIME 2025
    • performances particulièrement élevées sur l’AIME, un benchmark de très haut niveau, démontrant son efficacité d’entraînement et son efficacité en coûts
  • EXAONE Deep 7.8B & 2.4B :
    • 1re place sur les principaux benchmarks dans leurs catégories respectives de modèles légers et on-device
    • modèle 7.8B : 94.8 sur MATH-500, 59.6 sur l’AIME 2025
    • modèle 2.4B : 92.3 sur MATH-500, 47.9 sur l’AIME 2024
  • Principaux benchmarks en mathématiques :
    • CSAT
    • AIME (American Invitational Mathematics Examination)
    • MATH-500

Expertise remarquable en sciences et en programmation

  • Des performances supérieures aux modèles concurrents également démontrées en sciences et en programmation
  • EXAONE Deep 32B :
    • 66.1 au test GPQA Diamond (évaluation de la capacité à résoudre des problèmes scientifiques de niveau doctorat)
    • 59.5 sur LiveCodeBench (évaluation des compétences en programmation), surpassant les modèles d’IA de raisonnement de taille comparable
    • suggère un fort potentiel d’utilisation dans des domaines nécessitant une expertise spécialisée
  • EXAONE Deep 7.8B & 2.4B :
    • 1re place sur GPQA Diamond et LiveCodeBench
    • après EXAONE 3.5 2.4B, s’imposent comme des modèles de référence mondiaux dans la catégorie des modèles légers / on-device
  • Principaux benchmarks en sciences et en programmation :
    • GPQA Diamond
    • LiveCodeBench

9 commentaires

 
sice81 2025-03-20

Waouh, bravo à LG. Les LLM, ce n’est pas presque ce qui se fait de mieux dans notre pays ? J’ai aussi entendu dire qu’ils les exploitent très bien dans leurs systèmes internes… Mais la licence, c’est dommage. Ce serait bien que, quand une nouvelle version sort, l’ancienne soit publiée sous licence MIT.

 
mindok 2025-03-19

EXAONE 3.5 était déjà correct pour tourner en local sur un notebook, donc j’ai hâte de voir ça.

 
bungker 2025-03-19

J’ai été vraiment surpris. Je pensais que c’était juste de la com, mais voir un groupe aussi conservateur que LG sortir quelque chose comme ça, et en plus le publier ouvertement…

 
halfenif 2025-03-20

D’après la licence que j’ai consultée, je me demande bien comment cela peut être utilisé.

  1. Restrictions
    3.1 Usage commercial : il est expressément interdit au licencié d’utiliser le modèle, les dérivés ou les résultats à des fins commerciales, y compris, mais sans s’y limiter, pour développer ou déployer des produits, services ou applications générant des revenus, directement ou indirectement.

3.1 Usage commercial : il est expressément interdit au licencié d’utiliser le modèle, les dérivés ou les résultats à des fins commerciales, y compris, mais sans s’y limiter, pour développer ou déployer des produits, services ou applications générant des revenus, directement ou indirectement.

  1. Propriété
    4.2 Résultats : tous les droits, titres et intérêts relatifs aux résultats générés par le modèle et ses dérivés, qu’ils soient dans leur forme originale ou modifiée, sont et resteront la propriété exclusive du concédant de licence.

4.2 Résultats : tous les droits, titres et intérêts relatifs aux résultats générés par le modèle et ses dérivés, qu’ils soient dans leur forme originale ou modifiée, sont et resteront la propriété exclusive du concédant de licence.

 
yosemite 2025-03-20

Oui. Il s’agit d’une licence qui n’autorise pas l’usage commercial. Donc, pour moi, c’est exclu d’emblée.

 
junia3 2025-03-19

Je l’ai installé sur le serveur pour l’essayer, mais par rapport à qwq, le temps de réflexion devient beaucoup trop long.
Je ne sais pas s’il trouve bien les bonnes réponses, mais la latence me semble plus importante que prévu.

 
junia3 2025-03-19

Ah, cela ne concernait donc que certains problèmes. J’en ai testé quelques-uns de plus pour comparer, et les résultats semblent être similaires.

 
nowdoit7 2025-03-19

Je vous soutiens~ LG~ courage~

 
jujumilk3 2025-03-19

Je vous soutiens. Je mets un j’aime partout où je le vois sur LinkedIn.