6 points par GN⁺ 2024-11-29 | 2 commentaires | Partager sur WhatsApp
  • Qu'est-ce que QwQ
    • QwQ (Qwen with Questions) est un grand modèle de langage (LLM) développé par Alibaba, qui affiche de solides performances comparables à celles de ChatGPT-4
    • Fondé sur une philosophie essentielle consistant à réfléchir, se poser des questions et chercher une compréhension approfondie, il démontre de remarquables capacités d’analyse dans des domaines variés comme les mathématiques, la programmation et les connaissances générales
    • Il adopte une démarche visant à obtenir des insights profonds en se posant lui-même des questions, en examinant ses hypothèses et en explorant différentes voies de raisonnement
    • Il présente encore certaines limites en tant qu’apprenant à un stade initial, mais continue de progresser grâce à cette imperfection même

Principales caractéristiques et points forts

  • Capacités de réflexion approfondie et d’introspection
    • Il ne se contente pas de résoudre un problème, mais vérifie aussi sa propre logique pendant le processus afin de trouver une meilleure réponse
    • Grâce à une analyse rigoureuse et à un processus d’auto-questionnement, il renforce sa capacité à résoudre des problèmes complexes
  • Des benchmarks qui prouvent ses excellentes performances
    • QwQ a enregistré d’excellents résultats sur plusieurs benchmarks exigeants, démontrant une forte capacité de résolution de problèmes
    • GPQA : 65,2 % sur ce benchmark avancé qui évalue les capacités de résolution de problèmes scientifiques
    • AIME : 50,0 % sur AIME, qui teste la résolution de problèmes de mathématiques de niveau lycée
    • MATH-500 : 90,6 % sur ce test comprenant divers problèmes de mathématiques
    • LiveCodeBench : 50,0 % sur ce test évaluant la résolution de problèmes de programmation issus de situations réelles

Limites

  • Mélange et bascule entre les langues
    • Il peut traiter plusieurs langues, mais il arrive que les réponses mélangent des langues ou basculent de manière inattendue
  • Schémas de raisonnement récursifs
    • Lors de la vérification logique, il peut tomber dans une logique circulaire, ce qui peut produire de longues réponses
  • Considérations de sécurité et d’éthique
    • Des mesures supplémentaires sont nécessaires lors du déploiement du modèle afin de garantir sécurité et fiabilité
  • Limites en compréhension du langage et en raisonnement de bon sens
    • Bien qu’il soit performant dans la résolution de problèmes techniques, il peut encore s’améliorer en raisonnement de bon sens et dans la compréhension fine du langage

Signification et valeur de QwQ

  • Comparaison avec ChatGPT-4
    • QwQ est un grand modèle de langage comparable à ChatGPT-4, qui se distingue particulièrement dans la résolution de problèmes de mathématiques et de programmation
    • Construit sur le savoir-faire technologique d’Alibaba, QwQ fournit des réponses plus sophistiquées grâce à sa forte capacité d’analyse et d’introspection
  • Apprentissage et progression continus
    • QwQ n’est pas un modèle achevé, mais un modèle qui continue d’évoluer et d’apprendre
    • En reconnaissant ses limites et ses imperfections tout en cherchant à progresser, il démontre son potentiel en tant que modèle d’IA

2 commentaires

 
GN⁺ 2024-11-29
Commentaires sur Hacker News
  • Un utilisateur s’est dit émerveillé en regardant le processus par lequel une IA résolvait un problème de topologie qu’il avait créé. Il a trouvé que la manière dont l’IA résolvait le problème paraissait humaine.
    • Il a observé le moment où l’IA comprenait l’indice qui lui avait été donné.
    • Il prévoit une expérience consistant à faire jouer à GPT-4o le rôle d’un étudiant pour résoudre le problème.
  • Un autre utilisateur a mentionné avoir obtenu de bons résultats en exécutant l’IA sur Mac via Ollama.
    • Avec un téléchargement de 20 Go, elle se lance rapidement et montre de bons résultats dès le prompt initial.
  • QwQ est jugé impressionnant pour sa capacité à résoudre un problème de rétro-ingénierie en une seule fois.
    • Il résout un problème que seuls o1-preview et o1-mini avaient pu résoudre.
  • À la question demandant combien de r il y a dans strawberry, l’IA a fait plusieurs tentatives et consommé beaucoup de ressources.
    • Elle a finalement donné la bonne réponse, mais de manière inefficace.
  • Il est mentionné que les premières versions de l’IA sont en phase d’apprentissage, ainsi que la beauté de cet apprentissage.
    • Quand l’IA prend le temps de réfléchir, sa compréhension des mathématiques et de la programmation s’approfondit.
  • Il est souligné qu’il est difficile de trouver les bonnes questions.
    • Il arrive souvent de poser des questions trop faciles ou trop difficiles.
  • Le processus par lequel l’IA résout le problème consistant à trouver le plus petit facteur premier impair de 2019^8+1 est jugé impressionnant.
  • Il est avancé que, pour tester la véritable capacité de raisonnement d’un LLM, il faut utiliser des problèmes de mathématiques absents des données d’entraînement.
  • o1-preview a donné une mauvaise réponse à la question d’exemple, mais a fini par trouver la bonne.
  • En comparaison avec R1-lite de Deepseek, certains se demandent quelle est sa taille et font remarquer que le nom est amusant.