Google Bard grimpe à la 2e place du leaderboard de performances des LLM, juste derrière GPT-4 Turbo
(twitter.com/JeffDean)- Google Bard (Gemini Pro) a dépassé GPT-4-0314/0613 et autres, et a bondi jusqu’à la 2e place (1215), juste derrière GPT-4 Turbo (Arena ELO 1249)
- De plus, le taux d’hallucination du leaderboard HHEM a également chuté de 12 % à 4,9 %. (GPT-4/4 Turbo est à 3,0 %, GPT 3.5 Turbo à 3,5 %)
- Il est vraiment très intéressant de voir comment Bard + Gemini Ultra seront lancés
1 commentaires
Avis sur Hacker News
Limites de performance de Google Bard : un utilisateur soupçonnait depuis longtemps que les performances de Google Bard étaient limitées pour des raisons de coût. Google propose Bard gratuitement et n’a probablement jamais voulu faire tourner indéfiniment un modèle massif gratuitement pour tous les utilisateurs. Il est possible qu’il y ait eu une innovation sur les coûts d’inférence, ou que Google ait décidé d’assumer temporairement ce coût, lassé d’être perçu comme à la traîne face à la concurrence. L’utilisateur pense que Google devrait lancer un abonnement afin que l’on puisse voir publiquement son meilleur modèle en production.
Déception initiale vis-à-vis de Bard et améliorations : Bard était décevant à son lancement, mais il est bon de voir qu’il s’améliore. D’après l’expérience personnelle d’un utilisateur, il utilise plus souvent Claude 2 que GPT 4/Turbo, car il préfère son style de réponse et sa manière de répondre aux questions. Il est aussi notable que Kagi considère Claude 1 au niveau de GPT 4 (non-Turbo) et estime la qualité de Claude 2 comparable à celle de 4 Turbo.
Nombre de votes du modèle Bard : le modèle Bard a reçu relativement peu de votes. L’utilisateur attendra que le nombre de votes soit plus comparable à celui des autres modèles.
Bard est moins restrictif : Bard est bien moins restrictif que GPT-4, et rien que pour cela, il lui paraît bien meilleur.
Utilité de Bard parmi les LLM gratuits : parmi tous les LLM gratuits, Bard semble être le plus utile. ChatGPT 3.5 n’est même pas comparable et paraît paresseux.
Curiosité sur la méthode de benchmark : un utilisateur se demande comment le benchmark est réalisé. Il soupçonne qu’il pourrait être amélioré pour mieux représenter les attentes des utilisateurs ou l’utilisabilité réelle.
Décalage avec l’expérience personnelle : dans son expérience personnelle, dès qu’il a besoin d’une réponse, il revient à GPT. Dans la plupart des cas, il préfère ChatGPT 3.5 à Google Bard, et GPT 4 lui semble clairement meilleur que Bard.
Comparaison entre Bard et ChatGPT : personnellement, un utilisateur estime que Bard est bien meilleur que ChatGPT. Il aimerait utiliser une version non censurée de Mistral.
Réactivité de Bard et ajout de censure : auparavant, Bard répondait aux demandes sans refuser. Il semble qu’une couche de censure ait été ajoutée. L’ancien Bard lui manque.