- Modèle de fondation dédié aux données tabulaires (structurées), permettant d’exécuter directement des tâches de classification et de régression via une interface
fit/predict de style scikit-learn
- Le modèle de base TabPFN-2.6 a été entraîné uniquement sur des données synthétiques, et télécharge automatiquement le checkpoint lors de la première utilisation, sans nécessiter de pipeline d’entraînement séparé
- Aucun prétraitement des données n’est nécessaire : il faut fournir les données brutes sans appliquer de scaling, de one-hot encoding, etc., et les valeurs manquantes peuvent aussi être gérées nativement
- GPU recommandé (~8 Go de VRAM ou plus) ; sur CPU, l’exécution est limitée à environ 1 000 échantillons ou moins, et pour les environnements sans GPU, TabPFN Client (inférence cloud) est proposé
- Prédiction par lot indispensable : si
predict est appelé pour chaque échantillon individuellement, l’ensemble d’entraînement est recalculé à chaque fois, ce qui est environ 100 fois plus lent qu’un appel unique — il est recommandé de découper le jeu de test en blocs de 1 000
- La plage de performances optimale est de 100 000 échantillons maximum et 2 000 features ou moins ; pour 50 000 à 100 000 échantillons, utiliser le paramètre
ignore_pretraining_limits=True, et au-delà de 100 000, appliquer le Large Datasets Guide
- TabPFN Extensions apporte des fonctions étendues comme l’interprétation SHAP, la détection d’anomalies, la génération de données synthétiques, l’extraction d’embeddings, l’optimisation d’hyperparamètres et le post-hoc ensembling
- HuggingFace propose de nombreux checkpoints spécialisés : grand nombre de features (jusqu’à 1 000), grands volumes d’échantillons (30K+), petits jeux d’échantillons (moins de 3K), versions fine-tunées sur des données réelles, etc.
- L’Enterprise Edition propose une inférence à faible latence basée sur un moteur de distillation, la prise en charge de jusqu’à 10 millions de lignes et une licence commerciale
- TabPFN UX (interface graphique no-code), utilisable sans écrire de code, est également proposé séparément
- Le code est distribué sous Prior Labs License (Apache 2.0 + exigence d’attribution), tandis que les poids des modèles TabPFN-2.5/2.6 relèvent d’une licence non commerciale
Aucun commentaire pour le moment.