13 points par GN⁺ 2024-05-30 | 1 commentaires | Partager sur WhatsApp
  • Un modèle d’IA entraîné sur plus de 80 langages de programmation
  • Il prend en charge non seulement des langages populaires comme Python, Java, C, C++, JavaScript et Bash, mais aussi des langages plus spécifiques comme Swift et Fortran, afin d’aider les développeurs dans des environnements de développement et des projets variés

Une nouvelle référence en performances pour la génération de code

  • Des performances supérieures et une latence plus faible que les modèles précédents
  • Python
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • Moyenne sur plusieurs langages
    • Moyenne HumanEval : Codestral 61.5%, CodeLlama 51.9%

Démarrer avec Codestral

  • Codestral est disponible à des fins de recherche et de test sous la Mistral AI Non-Production License, avec téléchargement sur HuggingFace
  • Utilisable via le nouvel endpoint codestral.mistral.ai. L’accès est géré avec une clé API personnelle et disponible pendant une période bêta gratuite de 8 semaines
  • Utilisable via l’endpoint api.mistral.ai, avec une facturation au token.
  • Il est possible d’interagir naturellement avec Codestral via Le Chat.

Utiliser Codestral dans votre environnement de développement préféré

  • Frameworks applicatifs : intégré à LlamaIndex et LangChain.
  • Intégration VSCode/JetBrains : Codestral peut être utilisé dans les environnements VSCode et JetBrains via Continue.dev et Tabnine.

Retours de la communauté des développeurs

  • Nate Sesti (CTO de Continue.dev) : c’est le premier modèle public d’autocomplétion alliant vitesse et qualité, et il apportera un changement majeur pour les développeurs.
  • Vladislav Tankov (responsable IA chez JetBrains) : de grandes attentes vis-à-vis des capacités de Mistral, fortement axées sur le code et l’assistance au développement.
  • Mikhail Evtikhiev (chercheur chez JetBrains) : des performances supérieures à GPT-4-Turbo et GPT-3.5-Turbo sur le benchmark Kotlin-HumanEval.
  • Meital Zilberstein (responsable R&D chez Tabnine) : d’excellentes performances en génération de code, génération de tests, documentation, etc., améliorant fortement l’efficacité du produit.
  • Quinn Slack (CEO de Sourcegraph) : une latence réduite en autocomplétion de code tout en maintenant la qualité, offrant une valeur concrète aux développeurs.
  • Jerry Liu (CEO de LlamaIndex) : génération de code précise et fonctionnelle, y compris pour des tâches complexes.
  • Harrison Chase (CEO de LangChain) : un contexte étendu, avantageux et rapide, avec prise en charge de l’usage d’outils.

L’avis de GN⁺

  • Progrès de la génération de code par IA : Codestral prend en charge de nombreux langages et affiche d’excellentes performances, ce qui peut être d’une grande aide pour les développeurs.
  • Facilité d’utilisation : son usage est pratique grâce aux nombreuses options d’intégration et aux endpoints dédiés.
  • Évaluation des performances : ses résultats élevés sur plusieurs benchmarks le rendent crédible.
  • Modèles concurrents : il montre des performances supérieures même face à GPT-4-Turbo, GPT-3.5-Turbo et d’autres.
  • Points à considérer pour l’adoption : la décision d’adoption doit tenir compte des performances du modèle et de sa facilité d’utilisation.

1 commentaires

 
GN⁺ 2024-05-30
Avis Hacker News

Résumé des commentaires Hacker News

  • Restrictions de licence : le modèle et ses sorties ne peuvent pas être utilisés dans des activités commerciales ni dans des conditions « live ». L’utilisation des sorties de code dans le cadre du développement fait exception, mais l’usage interne dans le contexte des activités commerciales d’une entreprise est également interdit. Cela rend la comparaison avec d’autres modèles à poids ouverts inéquitable.

  • Test de modèle de programmation : il a été demandé à des modèles de programmation d’écrire un middleware Python ASGI spécifique, mais aucun modèle n’a réussi à le faire correctement.

  • Différence de philosophie des LLM : il existe une différence de philosophie entre les LLM de style Llama et les LLM de style OpenAI/GPT. GPT a évolué en mettant l’accent sur le code, tandis que les modèles Llama/Mistral publient d’abord un modèle de langage généraliste, puis proposent CodeLlama/Codestral après un entraînement supplémentaire orienté code.

  • Intégration VSCode : certains se demandent s’il existe un moyen de l’utiliser dans VSCode avec l’apparition de « shadow code » comme avec Copilot. La qualité de ce type d’outils dépend de la capacité à concevoir des prompts appropriés côté client.

  • Restrictions d’usage : les modèles Mistral et leurs dérivés ne peuvent être utilisés qu’à des fins de test, de recherche, d’usage personnel ou d’évaluation, et non dans des activités commerciales.

  • Problème de praticité : si le modèle ne peut pas être utilisé dans des cas pratiques de complétion de code, certains estiment qu’il n’a aucun intérêt. GH Copilot reste déjà le meilleur modèle.

  • Lien Huggingface : lien vers la page Huggingface

  • Démocratisation du code : en évoquant les problèmes apparus avec la démocratisation de l’art, certains craignent une multiplication de bibliothèques peu fiables générées par l’IA.

  • Besoins en RAM : certains s’interrogent sur la quantité de RAM nécessaire pour un usage local du modèle de 44 GB téléchargeable sur Huggingface. Ils se demandent aussi si les besoins en RAM sont les mêmes pour un GPU et pour la RAM « unifiée » d’Apple Silicon.

  • Extension VSCode : certains se demandent s’il existe une extension VSCode permettant d’utiliser différents modèles comme plugins, car refaire la configuration à chaque fois est contraignant.