Le CEO de Mistral reconnaît la fuite d’un nouveau modèle d’IA open source aux performances proches de GPT-4

(venturebeat.com)

10 points par GN⁺ 2024-02-01 | 1 commentaires | Partager sur WhatsApp

Vers le 28 janvier, un utilisateur nommé "Miqu Dev" a publié sur HuggingFace, une plateforme open source de partage de modèles d’IA et de code, un nouvel ensemble de fichiers de grand modèle de langage (LLM) open source baptisé "miqu-1-70b"
Ce modèle utilise le même "Prompt format" que Mixtral 8x7b, créé par Mistral, actuellement considéré comme l’un des modèles les plus performants parmi les entreprises d’IA open source
Le même jour, un utilisateur anonyme a publié sur 4chan un lien vers les fichiers miqu-1-70b
Certains utilisateurs ont constaté que ce modèle affichait d’excellentes performances sur les tâches LLM courantes, au point de se rapprocher de GPT-4 d’OpenAI

Une quantification de Mistral ?

Des chercheurs en machine learning (ML) ont manifesté sur LinkedIn leur intérêt pour savoir si "miqu" signifiait "MIstral QUantized"
La quantification est une technique qui remplace les longues séquences numériques de l’architecture d’un modèle d’IA par des versions plus courtes afin de permettre son exécution sur des ordinateurs et des puces moins puissants
Arthur Mensch, cofondateur et CEO de Mistral, a indiqué que le modèle "Miqu" avait fuité à cause d’un employé trop enthousiaste de l’un des clients en early access de Mistral
- Mistral a réentraîné ce modèle à partir de Llama 2, a terminé son pretraining le jour même de la sortie de Mistral 7B, et continue depuis à faire de bons progrès
Fait amusant, Mensch n’a pas demandé la suppression de la publication illégale sur Hugging Face ; il a plutôt laissé un commentaire indiquant qu’il pourrait "envisager une attribution"

Un moment majeur pour l’IA open source et au-delà ?

L’arrivée d’un modèle open source aux performances de niveau GPT-4 pourrait constituer un moment majeur non seulement pour l’IA générative open source, mais aussi pour l’ensemble du domaine de l’IA et de l’informatique
OpenAI peut conserver son avantage concurrentiel avec GPT-4 Turbo et GPT-4V (vision), mais la communauté de l’IA open source rattrape rapidement son retard

L’avis de GN⁺

L’émergence du modèle "Miqu" montre de nouvelles possibilités, dans l’IA open source, pour rivaliser avec des produits d’IA commerciaux
Cet incident met en lumière la capacité d’innovation de la communauté open source et la rapidité des avancées technologiques
Les progrès des modèles open source pourraient transformer la manière dont les entreprises exploitent l’IA, avec des effets importants sur l’ensemble de l’industrie technologique

1 commentaires

GN⁺ 2024-02-01

Commentaires sur Hacker News

Un utilisateur surveille la page de TheBloke en attendant de pouvoir exécuter le modèle quantifié Miqu Q5 sur son MacBook. Il utilise Mixtral tous les jours et affirme que si ce modèle (ou une nouvelle version officielle) s'approche de GPT-4, il résiliera son abonnement à OpenAI. Il estime que la petite équipe de Mistral surpasse ses concurrents et représente ce que devrait être "Open"AI.

Tweet du CEO de Mistral : un employé trop enthousiaste de l'un des clients ayant un accès anticipé a divulgué une version quantifiée (et filigranée) d'un ancien modèle. Il précise qu'ils ont réentraîné ce modèle à partir de Llama 2 dès qu'ils ont eu accès au cluster complet le jour du lancement de Mistral 7B, et qu'ils ont depuis réalisé de bons progrès.
Un utilisateur remarque que, même un an après la sortie de GPT-4, l'effort collectif pour tenter de rattraper GPT-4 resterait extrêmement épuisant, sans recette miracle particulière. Et ce, en sachant qu'OpenAI peut sortir quelque chose de bien meilleur à tout moment.
Un autre utilisateur, à propos de l'affirmation selon laquelle le modèle se rapproche de GPT-4, souligne que les classements montrent un grand écart entre GPT4-0314 et GPT4-Turbo, et que s'il se rapproche tout juste de GPT4-0314, il a encore un an de retard sur l'état de l'art.
Un autre utilisateur encore mentionne que le modèle divulgué deviendra probablement sans importance dans quelques mois. De meilleurs modèles sortiront après le modèle officiel, et il dit être plus enthousiasmé par la rapidité des progrès que par le modèle lui-même.
Un utilisateur remet en question le fait que ce modèle soit qualifié d'open source. Selon lui, c'est un modèle propriétaire divulgué sur Internet, et cela restera le cas jusqu'à ce que Mistral le publie officiellement. Pour un usage personnel, cela lui importe peu, comme avec Llama 1, mais il précise qu'aucune entreprise n'utilisera ce modèle.
Un autre utilisateur dit que Mistral lui rappelle les bonnes vieilles entreprises tech d'avant 2015.
Un utilisateur se demande comment imaginer un monde où GPT serait devenu l'équivalent de la dernière version d'Apache ou de MySQL, avec un retour à des millions d'hébergeurs web (désolé, d'hébergeurs d'IA).
Enfin, un utilisateur note que GPT-4 est sorti il y a presque un an et que le rythme rapide auquel OpenAI publiait chaque mois de nouvelles technologies révolutionnaires semble s'être arrêté. Il se demande ce qui se passe chez OpenAI, si le chaos récent a causé des retards dans l'entreprise, ou s'ils développent une sorte de « super-arme ».

Le CEO de Mistral reconnaît la fuite d’un nouveau modèle d’IA open source aux performances proches de GPT-4

Une quantification de Mistral ?

Un moment majeur pour l’IA open source et au-delà ?

L’avis de GN⁺

À lire aussi

1 commentaires

Commentaires sur Hacker News