2 points par GN⁺ 2024-08-20 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • L’ensemble de SafeDocs a été classé à l’aide de LLMs, de modèles d’embedding, de XGBoost et de régressions linéaires.
  • Diverses expérimentations et comparaisons de performances ont été menées pendant le processus de classification, avec une évaluation de plusieurs modèles.

Introduction

  • Common Crawl (CC) est une archive du web qui conserve Internet, avec un accent mis sur la préservation du web pour les scientifiques et les chercheurs.
  • CC ne stocke pas les fichiers PDF dans leur intégralité et ne conserve que le premier 1 Mo, tandis que SafeDocs récupère à nouveau ces PDF depuis CC pour préserver les fichiers originaux.
  • Le jeu de données SafeDocs se compose d’environ 8,4 millions de fichiers PDF et atteint 8 To une fois décompressé.
  • Une tentative a été faite pour classer ces PDF.

Création du jeu de données

  • Description du processus de classification des fichiers PDF selon différentes étiquettes.
  • Inspirés par le blog technique de FineWeb, les auteurs ont créé un sous-ensemble de contenus éducatifs, généré des étiquettes à l’aide d’un LLM, puis entraîné un petit modèle capable d’apprendre ces étiquettes.
  • 100k étiquettes ont été générées, puis rééquilibrées pour reconstruire un ensemble de 59k étiquettes.

Entraînement des modèles

Idée 1 : modèle d’embedding

  • Les modèles d’embedding convertissent des données comme le texte, les images ou la vidéo en vecteurs dans un espace à n dimensions.
  • Le finetuning a permis d’améliorer les performances de classification.
  • Après avoir testé plusieurs modèles, Alibaba-large-gte-1.5 s’est révélé le plus performant, avec une précision de 59,14 %.

Idée 2 : XGBoost

  • XGBoost est un modèle réputé pour ses performances de pointe sur les données tabulaires, et résout les problèmes de classification en entraînant plusieurs classifieurs binaires simples.
  • Cette méthode a atteint une précision de 83,97 %.

Idée 3 : TFIDF

  • TFIDF est une méthode qui calcule l’importance d’un mot donné dans un document et entraîne un modèle à l’aide de techniques NLP de base.
  • Elle a obtenu une précision de 67,52 %.

Idée 4 : retour au deep learning

  • L’objectif était d’atteindre au moins 70 % de précision avec un classifieur de deep learning.
  • Après avoir généré davantage d’étiquettes et mené des expériences avec le modèle gte-large, la précision a atteint 69,22 %.

Résultats des expériences

  • Au final, le modèle d’embedding avec XGBoost a enregistré la meilleure précision, à 85,26 %.
  • La comparaison des performances des différents modèles a montré que XGBoost était le plus performant.

Classification de l’ensemble du corpus

  • Le modèle créé a été utilisé pour classer l’ensemble des données PDF, puis les résultats ont été visualisés.
  • PCA et UMAP ont été utilisés pour représenter visuellement les résultats de la classification.

Conclusion

  • Même si les performances des modèles de deep learning n’ont pas été à la hauteur des attentes, des résultats globalement significatifs ont été obtenus.
  • On peut s’attendre à voir apparaître de plus en plus de grands jeux de données utilisant des données complexes comme les PDF.
  • Le jeu de données et le code sont publiés afin d’offrir une opportunité d’obtenir de meilleurs résultats.

L’avis de GN⁺

  • Ce projet est un bon exemple d’expérimentation de diverses approches pour résoudre un problème de classification sur un jeu de données à grande échelle.
  • Il montre que des techniques de machine learning plus traditionnelles comme XGBoost peuvent encore être extrêmement efficaces.
  • Il est possible que davantage de données et de ressources GPU aient été nécessaires pour améliorer les performances des modèles de deep learning.
  • Davantage de recherche et d’expérimentation sont nécessaires sur la manière de traiter des données complexes comme les PDF.
  • Ce projet peut constituer une référence très utile pour les personnes intéressées par la recherche et le développement.

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.