Google Bard grimpe à la 2e place du leaderboard de performances des LLM, juste derrière GPT-4 Turbo

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) a dépassé GPT-4-0314/0613 et autres, et a bondi jusqu’à la 2e place (1215), juste derrière GPT-4 Turbo (Arena ELO 1249) De plus, le taux d’hallucination du leaderboard HHEM a également chuté de 12 % à 4,9 %. (GPT-4/4 Turbo est à 3,0 %, GPT 3.5 Turbo à 3,5 %) Il est vraiment très intéressant de voir comment Bard + Gemini Ultra seront lancés

(twitter.com/JeffDean)

7 points par xguru 2024-01-28 | 1 commentaires | Partager sur WhatsApp

Google Bard (Gemini Pro) a dépassé GPT-4-0314/0613 et autres, et a bondi jusqu’à la 2e place (1215), juste derrière GPT-4 Turbo (Arena ELO 1249)
De plus, le taux d’hallucination du leaderboard HHEM a également chuté de 12 % à 4,9 %. (GPT-4/4 Turbo est à 3,0 %, GPT 3.5 Turbo à 3,5 %)
Il est vraiment très intéressant de voir comment Bard + Gemini Ultra seront lancés

1 commentaires

xguru 2024-01-28

Avis sur Hacker News

Limites de performance de Google Bard : un utilisateur soupçonnait depuis longtemps que les performances de Google Bard étaient limitées pour des raisons de coût. Google propose Bard gratuitement et n’a probablement jamais voulu faire tourner indéfiniment un modèle massif gratuitement pour tous les utilisateurs. Il est possible qu’il y ait eu une innovation sur les coûts d’inférence, ou que Google ait décidé d’assumer temporairement ce coût, lassé d’être perçu comme à la traîne face à la concurrence. L’utilisateur pense que Google devrait lancer un abonnement afin que l’on puisse voir publiquement son meilleur modèle en production.

Selon un tweet de Jeff Dean, un nouveau modèle appelé « Gemini Pro-scale model » a été lancé et aurait pris la 2e place sur le leaderboard indépendant de lmsys. On ne sait pas clairement ce que signifie « Pro-scale », ni si tous les utilisateurs utilisent déjà ce modèle.
Déception initiale vis-à-vis de Bard et améliorations : Bard était décevant à son lancement, mais il est bon de voir qu’il s’améliore. D’après l’expérience personnelle d’un utilisateur, il utilise plus souvent Claude 2 que GPT 4/Turbo, car il préfère son style de réponse et sa manière de répondre aux questions. Il est aussi notable que Kagi considère Claude 1 au niveau de GPT 4 (non-Turbo) et estime la qualité de Claude 2 comparable à celle de 4 Turbo.
Nombre de votes du modèle Bard : le modèle Bard a reçu relativement peu de votes. L’utilisateur attendra que le nombre de votes soit plus comparable à celui des autres modèles.
Bard est moins restrictif : Bard est bien moins restrictif que GPT-4, et rien que pour cela, il lui paraît bien meilleur.
Utilité de Bard parmi les LLM gratuits : parmi tous les LLM gratuits, Bard semble être le plus utile. ChatGPT 3.5 n’est même pas comparable et paraît paresseux.
Curiosité sur la méthode de benchmark : un utilisateur se demande comment le benchmark est réalisé. Il soupçonne qu’il pourrait être amélioré pour mieux représenter les attentes des utilisateurs ou l’utilisabilité réelle.

Après avoir vu le tweet de Jeff Dean, il a essayé Bard. Par rapport à GPT-4, cela reste décevant. Il s’écarte de la question sans s’en rendre compte.
Quand il a demandé la création d’un graphique, Bard a répondu trois fois « voici le graphique », alors qu’il n’y avait en réalité aucun graphique, avant de finir par dire que cette fonctionnalité n’existait pas.
Décalage avec l’expérience personnelle : dans son expérience personnelle, dès qu’il a besoin d’une réponse, il revient à GPT. Dans la plupart des cas, il préfère ChatGPT 3.5 à Google Bard, et GPT 4 lui semble clairement meilleur que Bard.
Comparaison entre Bard et ChatGPT : personnellement, un utilisateur estime que Bard est bien meilleur que ChatGPT. Il aimerait utiliser une version non censurée de Mistral.
Réactivité de Bard et ajout de censure : auparavant, Bard répondait aux demandes sans refuser. Il semble qu’une couche de censure ait été ajoutée. L’ancien Bard lui manque.

Google Bard grimpe à la 2e place du leaderboard de performances des LLM, juste derrière GPT-4 Turbo

À lire aussi

1 commentaires

Avis sur Hacker News