TII dévoile la série de modèles d’IA Falcon 2, devant Llama 3 8B

(tii.ae)

2 points par GN⁺ 2024-05-14 | 1 commentaires | Partager sur WhatsApp

Le TII d’Abu Dhabi a dévoilé la série Falcon 2, mettant en avant des modèles multilingues et multimodaux dans la concurrence des LLM open source
Falcon 2 11B est un modèle de 11 milliards de paramètres entraîné sur 5,5 billions de tokens, qui devance Meta Llama 3 8B sur le leaderboard de Hugging Face
Falcon 2 11B VLM est le premier modèle multimodal du TII, capable de convertir des entrées visuelles en texte, avec des applications possibles dans de nombreux secteurs
Les deux modèles sont proposés en open source sous la TII Falcon License 2.0, et conçus pour être plus faciles à déployer et à intégrer par les développeurs, même sur une infrastructure plus légère
Le TII prévoit d’étendre Falcon 2 à plusieurs tailles et étudie l’approche Mixture of Experts pour améliorer les performances et la qualité des réponses

Présentation de Falcon 2 et composition de la gamme

Le Technology Innovation Institute, organisation de recherche appliquée rattachée à l’Advanced Technology Research Council d’Abu Dhabi, a lancé le grand modèle de langage Falcon 2 le 13 mai 2024
Cette série se compose de deux modèles
- Falcon 2 11B : un LLM de 11 milliards de paramètres entraîné sur 5,5 billions de tokens
- Falcon 2 11B VLM : un modèle vision-vers-langage qui convertit des entrées visuelles en sorties textuelles
Les deux modèles prennent en charge le multilingue, et Falcon 2 11B VLM est le premier modèle multimodal du TII
Le TII présente Falcon 2 11B VLM comme le seul modèle actuellement disponible sur le segment haut de gamme du marché à proposer une fonction de conversion image-vers-texte

Comparaison des performances et champ d’application

Falcon 2 11B a été comparé à la catégorie des modèles préentraînés sur le leaderboard d’évaluation des LLM ouverts de Hugging Face
- Il affiche de meilleures performances que Llama 3 8B de Meta
- Il se situe dans le groupe de tête avec un score presque identique à Gemma 7B de Google
- Les scores sont de 64,28 pour Falcon 2 11B et 64,29 pour Gemma 7B
Le modèle Falcon 2 11B traite des tâches en anglais, français, espagnol, allemand, portugais et dans plusieurs autres langues
Falcon 2 11B VLM peut identifier et interpréter des images ainsi que des éléments visuels de l’environnement
- Les domaines d’application cités incluent la santé, la finance, le e-commerce, l’éducation et le droit
- Les cas d’usage mentionnés incluent aussi la gestion documentaire, l’archivage numérique, l’indexation contextuelle et l’assistance aux personnes malvoyantes

Modalités de publication et prochaines étapes

Falcon 2 11B et Falcon 2 11B VLM sont tous deux proposés en open source et accessibles aux développeurs
Les deux modèles sont présentés comme pouvant fonctionner efficacement sur un seul GPU, ce qui facilite leur déploiement et leur intégration sur une infrastructure plus légère, comme des ordinateurs portables et d’autres appareils
Falcon 2 11B est proposé sous la TII Falcon License 2.0, une licence logicielle permissive basée sur Apache 2.0
- Elle inclut une politique d’usage autorisé visant à encourager une utilisation responsable de l’IA
Le TII prévoit à l’avenir de décliner la prochaine génération de Falcon 2 en plusieurs tailles et étudie l’introduction de l’approche Mixture of Experts
- Mixture of Experts consiste à combiner de petits réseaux aux expertises différentes afin de produire des réponses plus fines et mieux adaptées
- Le TII estime que cette approche peut améliorer la précision et accélérer la prise de décision
Les informations sur les nouveaux modèles sont disponibles sur FalconLLM.TII.ae

1 commentaires

GN⁺ 2024-05-14

Avis de Hacker News

Les résultats des benchmarks semblent à peu près comparables à ceux de Mistral 7B et Llama 3 8B ; compte tenu de la taille accrue du modèle, ça ne paraît pas très impressionnant
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Exact. Falcon-180b a lui aussi d’abord été largement surestimé, mais la communauté s’est vite rendu compte qu’il était presque inutile, et des grands modèles de langage plus petits le battaient facilement dans les cas généraux
  Cette fois, ils affirment que falcon-11b est meilleur que Llama 3 8b, mais on voit déjà plusieurs problèmes. falcon-11b est environ 40 % plus gros que Llama 3 8b, ce qui rend difficile une comparaison dans la même catégorie de taille, et l’affirmation s’appuie sur des benchmarks automatisés, alors qu’il est clair depuis longtemps que les benchmarks automatisés seuls ne suffisent pas pour tirer une telle conclusion
  Certains scores de benchmarks automatisés sont bien inférieurs à ceux de Llama 3 8b, et il ne le dépasse que de justesse sur un seul benchmark. Il est possible de faire en sorte qu’un modèle paraisse être le meilleur de tous les temps sur un benchmark donné, mais cela ne signifie absolument pas que c’est un bon modèle
  Sans aucune évaluation humaine, ils ont tout de même utilisé volontairement un titre putaclic avec une affirmation hâtive, et en disant qu’il est meilleur que Llama 3, ils ignorent complètement Llama 3 70b
  Franchement, ça m’agace que tiiuae continue à recevoir autant d’attention alors qu’ils ne sortent rien d’utile et poursuivent ce genre de bait trompeur
- C’est apparemment le cas de leurs modèles en général. Ils sont vraiment très gros, mais il n’y a pas de véritable gain de performance au regard de l’effort investi
  Leur jeu de données web nettoyé est fortement censuré, et cela peut aussi jouer. Il est moralement très conservateur et exclut complètement la pornographie ainsi que de nombreux sujets
  Il ne serait donc pas surprenant qu’une partie du problème vienne du fait qu’ils filtrent trop de contenu et ajoutent surtout davantage de choses similaires
- Les métriques de comparaison ne sont peut-être pas les bonnes
  Le modèle est certes plus grand, mais son entraînement a nécessité moins de tokens que Llama 3. Le problème, c’est qu’en l’absence de jeu de données public, il est difficile de comparer et de reproduire correctement
  Difficile de savoir si cela vient de l’architecture du modèle, de la qualité du jeu de données, de la taille du modèle, d’une combinaison de ces facteurs ou d’autre chose
La licence n’est pas bonne : https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
C’est une licence Apache 2 modifiée avec des clauses supplémentaires, qui incluent l’obligation de respecter une politique d’utilisation acceptable : https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Or cette licence Apache 2 modifiée indique que « la politique d’utilisation acceptable peut être mise à jour de temps à autre, et vous devez surveiller l’adresse web où elle est hébergée afin de vous assurer que votre utilisation de l’œuvre ou des œuvres dérivées respecte la politique mise à jour »
Quelle que soit la manière dont on considère la politique d’utilisation acceptable actuelle, ils se réservent le droit de la modifier à leur guise à l’avenir, et les utilisateurs devront respecter la nouvelle politique
Cela illustre bien pourquoi je n’aime pas cette tendance à qualifier d’open source des licences qui ne sont pas compatibles avec la définition de l’OSI
- En gros, on ne peut absolument pas l’utiliser pour quoi que ce soit de non trivial. Ils peuvent interdire n’importe quel cas d’usage à tout moment, sans préavis
- Je me demande vraiment si la clause selon laquelle ils « se réservent le droit de la modifier à leur guise à l’avenir, et les utilisateurs devront respecter la nouvelle politique » tiendrait réellement devant un tribunal. J’aimerais savoir s’il existe une jurisprudence ou des précédents à ce sujet
- Ce genre de bidouille de licence n’est pas nouveau. Il y en avait déjà avec Falcon 1. Je salue l’effort, mais on dirait qu’ils cherchent encore s’ils peuvent monétiser, et comment
- Le modèle 40b semble être sous Apache pur
Il y a une phrase disant que « le nouveau Falcon 2 11B dépasse Llama 3 8B de Meta et offre des performances équivalentes au modèle Google Gemma 7B de référence », alors que j’avais vraiment en tête que Llama 3 8B devançait Gemma 7B sur presque toutes les métriques
- Il faut noter qu’il s’agit d’une comparaison entre modèles de base, pas entre modèles réglés pour le chat, car Falcon-11B n’a actuellement pas de modèle réglé pour le chat. Le réglage chat de Meta semble meilleur que celui de Gemma
  Cela dit, d’après mon usage, le modèle chat Gemma 1.1 était plutôt correct, et je pense bien que le modèle chat Llama3 8B est nettement meilleur
  CodeGemma 1.1 7B est particulièrement sous-estimé par rapport aux modèles de codage comparables. Le modèle de base CodeGemma 7B faisait partie des meilleurs modèles que j’ai testés pour la complétion de code, et le modèle chat faisait aussi partie des meilleurs que j’ai testés pour écrire du code
  Les autres modèles semblent mieux optimiser les benchmarks, mais en usage réel ils ne tiennent pas aussi bien que CodeGemma. J’ai hâte de voir ce que donnera CodeLlama3, mais il n’existe pas encore
- C’est anecdotique, mais d’après mon expérience Gemma est complètement inutile, tandis que Llama 3 8b est exceptionnellement bon pour sa taille. L’idée que Gemma devance Llama 3 me paraît étrange. Si Gemma est devant sur certains benchmarks, je me demande s’il n’y a pas une forme de contamination
- Moi aussi, j’ai trouvé ça étrange
  Ces temps-ci, je ne suis plus beaucoup les benchmarks et je me consacre entièrement au basket
  Pour info, je suis en fait un peu meilleur que Lebron. Lebron est même bien moins bon que ma fille de trois ans, et il m’arrive de battre ma fille. Au basket
Soupir, j’ai cru que c’était un article sur Falcon AT de Spectrum Holobyte. D’après MyAbandonware.com :
« Essentiellement Falcon 2, mais commercialisé différemment d’une manière ou d’une autre, Falcon AT est la deuxième sortie de la série Falcon de Spectrum Holobyte, une simulation de vol hardcore révolutionnaire. Contrairement à l’idée reçue selon laquelle Falcon 3.0 marquerait le début des simulations de vol modernes, Falcon AT constituait déjà une nette avancée par rapport à Falcon, avec des graphismes EGA nets, de nombreuses options réalistes et une campagne largement étoffée. Ce jeu est une simulation de combat aérien moderne, avec les excellents tutoriels, la variété des missions et la précision de la dynamique de vol que les fans de Falcon ont appris à connaître et à aimer. Parmi ses nombreuses innovations figuraient aussi des options multijoueur étonnamment jouables en hotseat et par modem. Aujourd’hui largement oublié, Falcon AT explique l’écart difficile à comprendre entre Falcon et Falcon 3.0 »
- On dirait qu’il y a une tendance à emprunter les noms de nouveaux produits à des jeux vidéo classiques. Ce n’est peut-être pas intentionnel. Il y avait encore tout à l’heure ici un post sur un système appelé Loom, mais ce n’était pas le jeu d’aventure classique. Quelqu’un va finir par sortir un grand modèle de langage ou un logiciel réseau et l’appeler Zork
- Comme il y a aussi en une actuellement « F-16 Strike Eagle II reverse engineering » <https://news.ycombinator.com/item?id=40347662>, ça contribue à déclencher la même association d’idées
Je ne comprends pas ce que veut dire la formule « le seul modèle d’IA doté de capacités vision-langage ». Ce n’est pas à peu près ce que font GPT-4 Vision et LLaVA ?
- Au début, j’ai cru que c’était un jeu de mots en tordant le sens
  Peut-être qu’on pourrait dire que LLaVA est un modèle langage-vision, mais même en l’interprétant comme ça je n’arrivais pas à rendre la phrase cohérente
  Peut-être que c’est juste un mensonge
- Tous les modèles Claude entrent aussi dans cette catégorie
Les modèles ouverts sont bienvenus, mais comme cela a déjà été souligné ici, les modèles Falcon ne sont pas si ouverts que ça. Le Falcon original ne fonctionnait pas non plus aussi bien que ses chiffres de benchmark le laissaient entendre. Il a été présenté comme une grande avancée, mais à sa sortie je n’ai pas eu l’impression qu’il surpassait les modèles ouverts concurrents
Le discours marketing selon lequel le modèle 11B devancerait des modèles 7B et 8B de « même catégorie » semble un peu forcé. Je vais suivre ça, et je compte clairement l’essayer en inférence locale. Mais à l’intuition, un llama 3 8B finement ajusté est probablement le meilleur de sa catégorie cette semaine
- Moi aussi, j’ai constaté que le Falcon original n’était pas à la hauteur de ses chiffres de benchmark. Il semblait sous-entraîné du point de vue du nombre de tokens par rapport aux paramètres. On dirait qu’ils voulaient simplement avoir un modèle de 40 milliards de paramètres, avec une approche plus proche de l’époque pré-optimisation Chinchilla
Ce genre de rappel, que l’IA sera utilisée non seulement par des pays démocratiques qui tentent au moins une certaine surveillance éthique, mais aussi par les pires dictateurs, est vraiment glaçant
- MBZ n’est pas MBS, et l’Arabie saoudite et les Émirats arabes unis sont deux pays différents. MBZ est l’un des dirigeants les plus populaires au monde, et ses citoyens comptent parmi les plus riches
  Son pays est l’un des rares pays développés dont l’économie continue de croître régulièrement, et il possède l’une des politiques d’immigration les plus libres au monde, tout en étant l’un des pays les plus sûrs hors d’Asie de l’Est
  Plutôt que de figurer parmi les pires dictateurs, il est beaucoup plus proche d’un candidat au titre de meilleur dictateur
Il y a quelque chose que j’aimerais comprendre. Ce modèle a bien été entraîné en grande partie sur des jeux de données publics, avec du matériel AWS, et en utilisant des algorithmes et techniques bien connus, non ? En quoi est-il différent des autres modèles que n’importe qui disposant de suffisamment d’argent pourrait entraîner ?
Avec mon regard sceptique, voire presque hostile, j’y vois seulement de la démonstration de prestige et une tentative de paraître pertinent. Est-ce qu’il y a quelque chose qui m’échappe dans ce type d’initiative ?
- Beaucoup de modèles entrent dans cette catégorie. La souveraineté a une certaine valeur, que ce soit pour un État ou pour une entreprise. La menace de la concurrence est aussi une bonne chose pour tout le monde
  Même si le résultat final n’est généralement pas particulièrement intéressant, c’est positif qu’il y ait des gens qui travaillent là-dessus
Pendant un instant, j’ai cru que ça avait un rapport avec le simulateur de vol classique :
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX a aussi les fusées Falcon 1 et Falcon 9, ainsi qu’un Falcon 5 qui a été proposé mais jamais développé
Le parti pris de l’article est tellement absurde qu’on a envie de dire aux Émirats arabes unis d’être un peu plus subtils. « bat llama 3 » est un résumé suspect tellement il est inutile, et la partie sur « le seul modèle d’IA doté de capacités vision-langage » est tout simplement déroutante

TII dévoile la série de modèles d’IA Falcon 2, devant Llama 3 8B

Présentation de Falcon 2 et composition de la gamme

Comparaison des performances et champ d’application

Modalités de publication et prochaines étapes

À lire aussi

1 commentaires

Avis de Hacker News