TL;DR
- Résumé essentiel : le modèle affiné était plus précis que les modèles d’OpenAI, mais l’implémentation de l’évaluation a été difficile.
- Points clés : de nombreux morceaux de code étaient cachés pendant le processus de fine-tuning et la vitesse d’exécution était lente. Sans système dédié, la complexité de maintenance augmenterait.
Chargement du dataset
- Dataset : utilisation d’un dataset de test issu d’un dépôt public sur le Hugging Face Hub.
- Structure du dataset :
name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq, etc.
Ajout des prédictions
- Ajout des prédictions : ajout du résultat de prédiction à chaque ligne du dataset, avec répétition de l’opération afin d’éviter les étapes trop gourmandes en calcul.
- Utilisation d’objets Pydantic : structuration des données sous forme d’objets Pydantic pour gérer la validation des données et les fonctions de contrôle qualité.
Test de validité JSON
- Résultats de prédiction : configuration du modèle pour qu’il produise une chaîne JSON en sortie.
- Utilisation de modèles GPT : exécution des prédictions avec les modèles GPT-4o et GPT-4 Turbo.
- Problème : comparaison précise difficile, car les modèles GPT n’avaient pas été entraînés sur le même prompt.
Prédictions asynchrones
- Traitement asynchrone : exécution des prédictions de manière asynchrone pour traiter un grand nombre d’événements.
- Logique de retry : ajout d’une logique de retry pour tenir compte des limites de débit du modèle GPT-3.5-turbo.
Transformation et publication du dataset
- Transformation du dataset : ajout des résultats de prédiction au dataset puis publication sur le Hugging Face Hub.
- Utilisation de fonctions : recours à des fonctions pour répéter les opérations de transformation et de publication.
Ajout des prédictions du modèle fine-tuné
- Modèle local : ajout des résultats de prédiction d’un modèle entraîné localement au dataset.
- Modèle OpenAI : ajout des résultats de prédiction d’un modèle entraîné via le service de fine-tuning en un clic d’OpenAI.
- Divers modèles : ajout des résultats de prédiction de différents modèles, dont Mistral, Llama3 et Solar LLM.
Évaluation finale
- Métriques d’évaluation : utilisation de diverses métriques comme le test de validité JSON, la précision de la date de début, la précision par province, la précision du groupe cible et la précision du type d’événement.
- Résultat final : le modèle fine-tuné a montré une précision supérieure à celle du modèle d’OpenAI.
L’avis de GN⁺
- Importance du fine-tuning : le fait qu’un modèle fine-tuné ait montré une précision supérieure au modèle de base d’OpenAI souligne l’importance des modèles adaptés à une tâche spécifique.
- Complexité de l’évaluation : la difficulté d’implémentation de l’évaluation met en évidence la nécessité d’une approche plus systémique.
- Usage de multiples modèles : le recours à différents modèles pour une évaluation comparative est intéressant. Cela permet d’identifier plus clairement les forces et faiblesses de chaque modèle.
- Usage de l’open source : l’utilisation de plateformes open source comme le Hugging Face Hub pour gérer et partager les datasets est utile.
- Nécessité de l’asynchrone : cela montre que l’approche asynchrone est efficace lorsqu’il faut traiter de grandes quantités de données.
1 commentaires
Avis Hacker News