- Vers le 28 janvier, un utilisateur nommé "Miqu Dev" a publié sur HuggingFace, une plateforme open source de partage de modèles d’IA et de code, un nouvel ensemble de fichiers de grand modèle de langage (LLM) open source baptisé "miqu-1-70b"
- Ce modèle utilise le même "Prompt format" que Mixtral 8x7b, créé par Mistral, actuellement considéré comme l’un des modèles les plus performants parmi les entreprises d’IA open source
- Le même jour, un utilisateur anonyme a publié sur 4chan un lien vers les fichiers miqu-1-70b
- Certains utilisateurs ont constaté que ce modèle affichait d’excellentes performances sur les tâches LLM courantes, au point de se rapprocher de GPT-4 d’OpenAI
Une quantification de Mistral ?
- Des chercheurs en machine learning (ML) ont manifesté sur LinkedIn leur intérêt pour savoir si "miqu" signifiait "MIstral QUantized"
- La quantification est une technique qui remplace les longues séquences numériques de l’architecture d’un modèle d’IA par des versions plus courtes afin de permettre son exécution sur des ordinateurs et des puces moins puissants
- Arthur Mensch, cofondateur et CEO de Mistral, a indiqué que le modèle "Miqu" avait fuité à cause d’un employé trop enthousiaste de l’un des clients en early access de Mistral
- Mistral a réentraîné ce modèle à partir de Llama 2, a terminé son pretraining le jour même de la sortie de Mistral 7B, et continue depuis à faire de bons progrès
- Fait amusant, Mensch n’a pas demandé la suppression de la publication illégale sur Hugging Face ; il a plutôt laissé un commentaire indiquant qu’il pourrait "envisager une attribution"
Un moment majeur pour l’IA open source et au-delà ?
- L’arrivée d’un modèle open source aux performances de niveau GPT-4 pourrait constituer un moment majeur non seulement pour l’IA générative open source, mais aussi pour l’ensemble du domaine de l’IA et de l’informatique
- OpenAI peut conserver son avantage concurrentiel avec GPT-4 Turbo et GPT-4V (vision), mais la communauté de l’IA open source rattrape rapidement son retard
L’avis de GN⁺
- L’émergence du modèle "Miqu" montre de nouvelles possibilités, dans l’IA open source, pour rivaliser avec des produits d’IA commerciaux
- Cet incident met en lumière la capacité d’innovation de la communauté open source et la rapidité des avancées technologiques
- Les progrès des modèles open source pourraient transformer la manière dont les entreprises exploitent l’IA, avec des effets importants sur l’ensemble de l’industrie technologique
1 commentaires
Commentaires sur Hacker News
Un utilisateur surveille la page de TheBloke en attendant de pouvoir exécuter le modèle quantifié Miqu Q5 sur son MacBook. Il utilise Mixtral tous les jours et affirme que si ce modèle (ou une nouvelle version officielle) s'approche de GPT-4, il résiliera son abonnement à OpenAI. Il estime que la petite équipe de Mistral surpasse ses concurrents et représente ce que devrait être "Open"AI.
Un utilisateur remarque que, même un an après la sortie de GPT-4, l'effort collectif pour tenter de rattraper GPT-4 resterait extrêmement épuisant, sans recette miracle particulière. Et ce, en sachant qu'OpenAI peut sortir quelque chose de bien meilleur à tout moment.
Un autre utilisateur, à propos de l'affirmation selon laquelle le modèle se rapproche de GPT-4, souligne que les classements montrent un grand écart entre GPT4-0314 et GPT4-Turbo, et que s'il se rapproche tout juste de GPT4-0314, il a encore un an de retard sur l'état de l'art.
Un autre utilisateur encore mentionne que le modèle divulgué deviendra probablement sans importance dans quelques mois. De meilleurs modèles sortiront après le modèle officiel, et il dit être plus enthousiasmé par la rapidité des progrès que par le modèle lui-même.
Un utilisateur remet en question le fait que ce modèle soit qualifié d'open source. Selon lui, c'est un modèle propriétaire divulgué sur Internet, et cela restera le cas jusqu'à ce que Mistral le publie officiellement. Pour un usage personnel, cela lui importe peu, comme avec Llama 1, mais il précise qu'aucune entreprise n'utilisera ce modèle.
Un autre utilisateur dit que Mistral lui rappelle les bonnes vieilles entreprises tech d'avant 2015.
Un utilisateur se demande comment imaginer un monde où GPT serait devenu l'équivalent de la dernière version d'Apache ou de MySQL, avec un retour à des millions d'hébergeurs web (désolé, d'hébergeurs d'IA).
Enfin, un utilisateur note que GPT-4 est sorti il y a presque un an et que le rythme rapide auquel OpenAI publiait chaque mois de nouvelles technologies révolutionnaires semble s'être arrêté. Il se demande ce qui se passe chez OpenAI, si le chaos récent a causé des retards dans l'entreprise, ou s'ils développent une sorte de « super-arme ».