- L’ensemble de SafeDocs a été classé à l’aide de LLMs, de modèles d’embedding, de XGBoost et de régressions linéaires.
- Diverses expérimentations et comparaisons de performances ont été menées pendant le processus de classification, avec une évaluation de plusieurs modèles.
Introduction
- Common Crawl (CC) est une archive du web qui conserve Internet, avec un accent mis sur la préservation du web pour les scientifiques et les chercheurs.
- CC ne stocke pas les fichiers PDF dans leur intégralité et ne conserve que le premier 1 Mo, tandis que SafeDocs récupère à nouveau ces PDF depuis CC pour préserver les fichiers originaux.
- Le jeu de données SafeDocs se compose d’environ 8,4 millions de fichiers PDF et atteint 8 To une fois décompressé.
- Une tentative a été faite pour classer ces PDF.
Création du jeu de données
- Description du processus de classification des fichiers PDF selon différentes étiquettes.
- Inspirés par le blog technique de FineWeb, les auteurs ont créé un sous-ensemble de contenus éducatifs, généré des étiquettes à l’aide d’un LLM, puis entraîné un petit modèle capable d’apprendre ces étiquettes.
- 100k étiquettes ont été générées, puis rééquilibrées pour reconstruire un ensemble de 59k étiquettes.
Entraînement des modèles
Idée 1 : modèle d’embedding
- Les modèles d’embedding convertissent des données comme le texte, les images ou la vidéo en vecteurs dans un espace à n dimensions.
- Le finetuning a permis d’améliorer les performances de classification.
- Après avoir testé plusieurs modèles,
Alibaba-large-gte-1.5 s’est révélé le plus performant, avec une précision de 59,14 %.
Idée 2 : XGBoost
- XGBoost est un modèle réputé pour ses performances de pointe sur les données tabulaires, et résout les problèmes de classification en entraînant plusieurs classifieurs binaires simples.
- Cette méthode a atteint une précision de 83,97 %.
Idée 3 : TFIDF
- TFIDF est une méthode qui calcule l’importance d’un mot donné dans un document et entraîne un modèle à l’aide de techniques NLP de base.
- Elle a obtenu une précision de 67,52 %.
Idée 4 : retour au deep learning
- L’objectif était d’atteindre au moins 70 % de précision avec un classifieur de deep learning.
- Après avoir généré davantage d’étiquettes et mené des expériences avec le modèle
gte-large, la précision a atteint 69,22 %.
Résultats des expériences
- Au final, le modèle d’embedding avec XGBoost a enregistré la meilleure précision, à 85,26 %.
- La comparaison des performances des différents modèles a montré que XGBoost était le plus performant.
Classification de l’ensemble du corpus
- Le modèle créé a été utilisé pour classer l’ensemble des données PDF, puis les résultats ont été visualisés.
- PCA et UMAP ont été utilisés pour représenter visuellement les résultats de la classification.
Conclusion
- Même si les performances des modèles de deep learning n’ont pas été à la hauteur des attentes, des résultats globalement significatifs ont été obtenus.
- On peut s’attendre à voir apparaître de plus en plus de grands jeux de données utilisant des données complexes comme les PDF.
- Le jeu de données et le code sont publiés afin d’offrir une opportunité d’obtenir de meilleurs résultats.
L’avis de GN⁺
- Ce projet est un bon exemple d’expérimentation de diverses approches pour résoudre un problème de classification sur un jeu de données à grande échelle.
- Il montre que des techniques de machine learning plus traditionnelles comme XGBoost peuvent encore être extrêmement efficaces.
- Il est possible que davantage de données et de ressources GPU aient été nécessaires pour améliorer les performances des modèles de deep learning.
- Davantage de recherche et d’expérimentation sont nécessaires sur la manière de traiter des données complexes comme les PDF.
- Ce projet peut constituer une référence très utile pour les personnes intéressées par la recherche et le développement.
Aucun commentaire pour le moment.