OQBoost : des arbres obliques utilisables en pratique
(github.com/CREE1116)OQBoost est une bibliothèque de Gradient Boosting Decision Tree (GBDT) basée sur le 2D Oblique Split.
Les principales bibliothèques GBDT existantes, comme XGBoost, LightGBM et CatBoost, utilisent majoritairement des séparations alignées sur les axes (axis-aligned). Comme elles effectuent la séparation à partir d’une seule feature, elles sont très rapides et efficaces ; mais pour représenter une frontière de décision diagonale ou l’interaction entre deux variables, il faut combiner plusieurs arbres.
Pour lever cette limite, OQBoost utilise comme unité de séparation de base le 2D Oblique Split, qui exploite simultanément deux features. En réalisant directement une séparation oblique dans un nœud, il vise à offrir une expressivité plus riche tout en conservant une vitesse d’apprentissage pratique.
Pour cela, OQBoost combine un algorithme rapide de recherche de direction basé sur la Grid Label Accumulation avec une régression pondérée par le Hessien, ce qui réduit fortement le coût de calcul élevé des Oblique Trees existants. Il met également en œuvre diverses optimisations, comme Lazy Binning, Fast Search, Cache et Precomputation, afin d’atteindre des vitesses d’apprentissage dignes d’une bibliothèque réellement utilisable.
OQBoost propose actuellement les fonctionnalités suivantes.
- Binary Classification
- Multiclass Classification (Joint Training)
- Regression
- Native Missing Value Handling
- Native Categorical Feature Support
- SHAP-style Built-in Explanation
- Kernel SHAP Compatibility
- Multi-thread Training
- Scikit-learn Compatible API
Lors des expériences, OQBoost a montré des performances compétitives face aux bibliothèques GBDT existantes sur divers jeux de données publics.
- Binary Classification : 1er au classement AUC moyen
- Regression : 1er au classement R² moyen
- Multiclass Classification : performances d’un niveau similaire à LightGBM et XGBoost
L’objectif d’OQBoost n’est pas simplement de réimplémenter les GBDT existants, mais de fournir un nouveau moteur de Gradient Boosting permettant d’utiliser des Oblique Splits à un coût pratique.
Aucun commentaire pour le moment.