1 points par GN⁺ 2024-07-02 | 1 commentaires | Partager sur WhatsApp

TL;DR

  • Résumé essentiel : le modèle affiné était plus précis que les modèles d’OpenAI, mais l’implémentation de l’évaluation a été difficile.
  • Points clés : de nombreux morceaux de code étaient cachés pendant le processus de fine-tuning et la vitesse d’exécution était lente. Sans système dédié, la complexité de maintenance augmenterait.

Chargement du dataset

  • Dataset : utilisation d’un dataset de test issu d’un dépôt public sur le Hugging Face Hub.
  • Structure du dataset : name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq, etc.

Ajout des prédictions

  • Ajout des prédictions : ajout du résultat de prédiction à chaque ligne du dataset, avec répétition de l’opération afin d’éviter les étapes trop gourmandes en calcul.
  • Utilisation d’objets Pydantic : structuration des données sous forme d’objets Pydantic pour gérer la validation des données et les fonctions de contrôle qualité.

Test de validité JSON

  • Résultats de prédiction : configuration du modèle pour qu’il produise une chaîne JSON en sortie.
  • Utilisation de modèles GPT : exécution des prédictions avec les modèles GPT-4o et GPT-4 Turbo.
  • Problème : comparaison précise difficile, car les modèles GPT n’avaient pas été entraînés sur le même prompt.

Prédictions asynchrones

  • Traitement asynchrone : exécution des prédictions de manière asynchrone pour traiter un grand nombre d’événements.
  • Logique de retry : ajout d’une logique de retry pour tenir compte des limites de débit du modèle GPT-3.5-turbo.

Transformation et publication du dataset

  • Transformation du dataset : ajout des résultats de prédiction au dataset puis publication sur le Hugging Face Hub.
  • Utilisation de fonctions : recours à des fonctions pour répéter les opérations de transformation et de publication.

Ajout des prédictions du modèle fine-tuné

  • Modèle local : ajout des résultats de prédiction d’un modèle entraîné localement au dataset.
  • Modèle OpenAI : ajout des résultats de prédiction d’un modèle entraîné via le service de fine-tuning en un clic d’OpenAI.
  • Divers modèles : ajout des résultats de prédiction de différents modèles, dont Mistral, Llama3 et Solar LLM.

Évaluation finale

  • Métriques d’évaluation : utilisation de diverses métriques comme le test de validité JSON, la précision de la date de début, la précision par province, la précision du groupe cible et la précision du type d’événement.
  • Résultat final : le modèle fine-tuné a montré une précision supérieure à celle du modèle d’OpenAI.

L’avis de GN⁺

  1. Importance du fine-tuning : le fait qu’un modèle fine-tuné ait montré une précision supérieure au modèle de base d’OpenAI souligne l’importance des modèles adaptés à une tâche spécifique.
  2. Complexité de l’évaluation : la difficulté d’implémentation de l’évaluation met en évidence la nécessité d’une approche plus systémique.
  3. Usage de multiples modèles : le recours à différents modèles pour une évaluation comparative est intéressant. Cela permet d’identifier plus clairement les forces et faiblesses de chaque modèle.
  4. Usage de l’open source : l’utilisation de plateformes open source comme le Hugging Face Hub pour gérer et partager les datasets est utile.
  5. Nécessité de l’asynchrone : cela montre que l’approche asynchrone est efficace lorsqu’il faut traiter de grandes quantités de données.

1 commentaires

 
GN⁺ 2024-07-02
Avis Hacker News
  • Fondateur d’OpenPipe : l’extraction de données est un domaine où les modèles fine-tunés excellent. Selon les recherches d’OpenPipe, le modèle Llama 3 8B a surpassé GPT-4 sur plusieurs tâches. Le point essentiel est la manière de générer des données d’entraînement de haute qualité
  • Les petits modèles spécialisés montrent de meilleures performances en extraction d’informations et en classification de texte. J’aimerais voir une étude incluant les performances des petits modèles
  • Un système d’équations sous-déterminé possède une infinité de solutions. On peut dépasser les benchmarks SOTA en utilisant des modèles d’IA open source. Avec la technologie actuelle, on ne peut pas créer de systèmes intelligents, et une nouvelle percée est nécessaire
  • L’extraction et la structuration de données sont la seule application réellement sérieuse des LLM utile dans le travail concret. Les petits modèles sont plus rapides, moins chers et adaptés aux tâches hors ligne. Ils permettent davantage d’expérimentations et un fine-tuning plus spécifique
  • C’est précisément à cela que servent les modèles fine-tunés. Il est intéressant de voir un processus de fine-tuning mêlant options d’hébergement et locales
  • J’aimerais voir des exemples où GPT-4 s’est montré inexact et où le meilleur modèle était correct. Ce serait aussi bien de réessayer avec une température de 0. Une température de 0 peut faire une grande différence dans l’extraction de données structurées
  • J’ai rédigé un article sur un sujet similaire : lien vers l’article
  • Nous avons mené plus de 700 expériences de fine-tuning chez Predibase et comparé les résultats à GPT-4. Dans 85 % des cas, nous avons surpassé GPT-4. Les résultats sont disponibles ici
  • Tous les modèles devraient être rendus open source autant que possible. L’open source est généralement meilleur pour la liberté et la qualité
  • Le caractère potentiellement controversé de l’article d’actualité ciblé pourrait affecter la capacité de résumé de ChatGPT