Llama 2 est aussi précis que GPT-4 pour les résumés, tout en étant 30 fois moins cher

xguru · 2023-08-30T11:08:02+09:00

La synthèse de texte (summarizing) est l’une des applications les plus utiles des LLM, mais il faut pouvoir avoir confiance dans l’exactitude du résumé On souhaite utiliser des LLM open source comme Llama 2 en raison du coût ou de problèmes d’accès aux données, mais on manque de certitudes sur leur exactitude Des expériences ont montré que Llama-2-70b est aussi fiable sur le plan factuel que gpt-4, et nettement supérieur à gpt-3.5-turbo Comparaison de Llama 2 7b/13b/70b et gpt-3.5/4 à l’aide d’Anyscale Endpoint 373 phrases issues de reportages d’actualité, vérifiées par trois annotateurs, ont été étiquetées en présentant pour chacune une bonne réponse et une mauvaise réponse Chaque LLM devait choisir quelle affirmation constituait un résumé exact fondé sur les faits Deux problèmes Les petits modèles suivent mal les consignes. Les modèles plus grands respectent mieux les instructions. Il a donc fallu utiliser un autre LLM pour interpréter la sortie des petits LLM Biais d’ordre : le choix change selon ce qui est présenté en premier. Une vérification a donc aussi été faite en inversant l’ordre Résultats Humains : 84 % (d’après une étude précédente) gpt-3.5-turbo : 67,0 % de bonnes réponses (problème de biais d’ordre important) gpt-4 : 85,5 % de bonnes réponses Llama-2-7b : biais d’ordre extrêmement fort, avec une précision inférieure au hasard Llama-2-13b : 58,9 % de bonnes réponses Llama-2-70b : 81,7 % Coût (pour résumer 100K mots) gpt-4 : $5.48 gpt-3.5-turbo : $0.25 Llama-2-7b : $0.05 Llama-2-13b : $0.09 Llama-2-70b : $0.19

(anyscale.com)

12 points par xguru 2023-08-30 | 5 commentaires | Partager sur WhatsApp

La synthèse de texte (summarizing) est l’une des applications les plus utiles des LLM, mais il faut pouvoir avoir confiance dans l’exactitude du résumé
On souhaite utiliser des LLM open source comme Llama 2 en raison du coût ou de problèmes d’accès aux données, mais on manque de certitudes sur leur exactitude
Des expériences ont montré que Llama-2-70b est aussi fiable sur le plan factuel que gpt-4, et nettement supérieur à gpt-3.5-turbo
Comparaison de Llama 2 7b/13b/70b et gpt-3.5/4 à l’aide d’Anyscale Endpoint
- 373 phrases issues de reportages d’actualité, vérifiées par trois annotateurs, ont été étiquetées en présentant pour chacune une bonne réponse et une mauvaise réponse
- Chaque LLM devait choisir quelle affirmation constituait un résumé exact fondé sur les faits
Deux problèmes
- Les petits modèles suivent mal les consignes. Les modèles plus grands respectent mieux les instructions. Il a donc fallu utiliser un autre LLM pour interpréter la sortie des petits LLM
- Biais d’ordre : le choix change selon ce qui est présenté en premier. Une vérification a donc aussi été faite en inversant l’ordre
Résultats
- Humains : 84 % (d’après une étude précédente)
- gpt-3.5-turbo : 67,0 % de bonnes réponses (problème de biais d’ordre important)
- gpt-4 : 85,5 % de bonnes réponses
- Llama-2-7b : biais d’ordre extrêmement fort, avec une précision inférieure au hasard
- Llama-2-13b : 58,9 % de bonnes réponses
- Llama-2-70b : 81,7 %
Coût (pour résumer 100K mots)
- gpt-4 : $5.48
- gpt-3.5-turbo : $0.25
- Llama-2-7b : $0.05
- Llama-2-13b : $0.09
- Llama-2-70b : $0.19

5 commentaires

mhj5730 2023-08-30

Le coût de GPT-4 est vraiment écrasant par rapport aux autres GPT...

xguru 2023-08-30

Je l’ai utilisé sans trop réfléchir... puis j’ai dépassé le quota mensuel de 120 $ et j’ai dû demander une augmentation.
Pour l’instant, c’est clairement cher. J’espère que le prix baissera vite jusqu’au niveau de GPT-3.5 haha

kuroneko 2023-08-30

Pour les résumés, j’utilise toujours le Universal Summarizer de Kagi.
J’ai même l’impression que c’est plus simple que ChatGPT, et les tokens sont illimités...

Par contre, pour le coréen, il se contente de traduire le résultat, donc clairement la qualité en coréen est un peu en dessous, même par rapport à GPT 3.5.
Les modèles de niveau entreprise, accessibles uniquement en payant, semblent meilleurs, mais c’était 1 dollar par résumé, je crois, donc pour un usage personnel ça me paraissait un peu trop lourd.

ragingwind 2023-08-30

Il semble clair que, pour les LLM, la fonction de résumé est un critère de choix important.

xguru 2023-08-30

Le problème, c’est que dans cette expérience, le LLM n’a pas produit le résumé ; il a seulement évalué un résumé déjà fait…
À l’usage, GPT-4 est clairement excellent en matière de résumé. La traduction en coréen pose aussi problème.
J’avais été tenté à cause du coût de GN⁺, mais pour l’instant, il semble qu’il faille simplement continuer à utiliser gpt-4.

Llama 2 est aussi précis que GPT-4 pour les résumés, tout en étant 30 fois moins cher

À lire aussi

5 commentaires