Upstage lance Solar Pro 2, un modèle de raisonnement de niveau frontier

(upstage.ai)

7 points par GN⁺ 2025-07-14 | 2 commentaires | Partager sur WhatsApp

Solar Pro 2 est le nouveau modèle de langage frontier d’Upstage qui, malgré sa taille compacte de 31B paramètres, offre une capacité de raisonnement de nouvelle génération, une grande polyvalence dans l’usage d’outils et des performances de très haut niveau en coréen et en multilingue
Sur les principaux benchmarks coréens (ex. : Ko-Arena-Hard-Auto, Ko-MMLU, etc.), il affiche des résultats comparables ou supérieurs à GPT-4 et Claude 3, tout en générant des réponses cohérentes et précises dans des domaines spécialisés comme le droit, la finance et la santé
En mode de raisonnement avancé, il peut traiter diverses tâches comme les problèmes de mathématiques, les questions-réponses logiques et les raisonnements complexes en plusieurs étapes, et démontre également d’excellents résultats dans les évaluations de code et d’ingénierie
Il intègre une architecture de type agent, pensée pour un usage concret en entreprise, avec intégration d’outils, génération de fichiers et exécution autonome, ce qui permet une adoption immédiate en environnement professionnel
LLM de nouvelle génération axé sur l’usage métier concret, avec déploiement cloud et on-premise, renforcement de la stabilité et de l’utilisabilité, ainsi qu’un accompagnement pour l’adoption en entreprise

Lancement officiel de Solar Pro 2, avec des performances frontier démontrées à l’échelle mondiale

Solar Pro 2 est un modèle de langage frontier de nouvelle génération développé par Upstage qui, malgré sa taille compacte de 31B paramètres, offre un traitement multilingue étendu, une capacité de raisonnement avancée et une utilisation d’outils optimisée pour les usages métier
Il démontre notamment des performances en coréen suffisamment élevées pour rivaliser avec GPT-4 et Claude 3, avec précision et cohérence jusque dans des domaines exigeants comme le droit, la finance et la santé

Sur des benchmarks comme Ko-Arena-Hard-Auto, il obtient des résultats équivalents à ceux des meilleurs modèles
Sur divers benchmarks coréens de NLP comme Ko-MMLU, Hae-Rae et Ko-IFEval, il affiche des performances de premier plan sur l’ensemble des tâches de compréhension et de génération
Il fournit également des résultats stables et précis dans des domaines spécialisés (droit, finance, santé, etc.)

À un moment où la transparence du processus de raisonnement et son explicabilité sont cruciales, Solar Pro 2 va au-delà de la simple prédiction pour permettre analyse, synthèse et réflexion multi-étapes
Sur des benchmarks généraux de raisonnement comme MMLU, MMLU-Pro et HumanEval, les performances sur les tâches coréennes en plusieurs étapes progressent fortement
Il excelle également sur des problèmes mathématiques difficiles comme Math500 et AIME, ainsi que sur des tâches de développement complexes comme SWE-Bench Agentless
Il offre une excellente efficacité de raisonnement au regard du nombre de paramètres

Solar Pro 2 est un LLM de type agent doté de fonctions directement applicables au travail réel, comme l’intégration d’outils, la génération de fichiers et l’exécution autonome de tâches
Upstage souligne qu’il ne s’agit pas seulement d’un grand modèle, mais d’une IA réaliste, réellement exploitable dans les opérations quotidiennes
Exemple : application possible à divers scénarios d’automatisation, comme la génération automatique de rapports de veille concurrentielle

idunno 2025-07-15

J’aurais aimé qu’on montre par des chiffres à quel point c’est nettement amélioré, performant et précis.

sanxiyn 2025-07-15

Comparer Claude 3 au moment où Claude 4 est déjà sorti, ce n'est pas presque de l'arnaque...?