État du machine learning compétitif en 2022

xguru · 2023-03-22T11:05:02+09:00

Points clés Les outils convergent vers Python, PyData, Pytorch et les Gradient-boosted Decision Trees (GBDT) En données tabulaires, le deep learning n’a pas encore remplacé les GBDT Les transformeurs dominent le NLP et commencent à concurrencer les réseaux neuronaux convolutifs (CNN) en vision par ordinateur Les compétitions couvrent divers domaines de recherche, notamment la vision par ordinateur, le NLP, les données tabulaires, la robotique et l’analyse de séries temporelles Des solutions à modèle unique remportent parfois la victoire, mais les grands ensembles remportent généralement les compétitions Il existe plusieurs plateformes de compétitions de machine learning, ainsi que des dizaines de sites créés pour des compétitions individuelles Le machine learning compétitif continue de gagner en popularité, y compris dans le monde académique 50 % des vainqueurs sont des participants en solo, 50 % sont des vainqueurs pour la première fois, et 30 % avaient déjà gagné au moins deux fois auparavant Certains compétiteurs peuvent investir massivement dans le matériel pour entraîner leurs solutions, mais il est toujours possible de gagner en utilisant du matériel gratuit comme Google Colab Paysage du ML compétitif Compétitions et tendances notables En montant des prix, le Snowcast Showdown de DrivenData (sponsorisé par le Département américain du développement du territoire) : 500 k$ de récompense La plus populaire a été l’American Express Default Prediction de Kaggle. Plus de 4 000 équipes y ont participé. Récompense de 100 k$. La 1re place a été remportée par un participant solo débutant (réseau neuronal + LightGBM) La plus grande compétition indépendante est l’AI Audit Challenge de Stanford Le plus grand domaine était la vision par ordinateur : environnement, médecine Le deuxième plus grand domaine était le NLP : NLP + recherche, NLP + Reinforcement Learning Le domaine du Sequential Decision-Making est également en croissance Plateformes Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Autres plateformes intéressantes : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Objectif Les compétitions bien organisées proposent, avec les données d’entraînement, des problèmes intéressants qu’on a envie de résoudre réunissent un ensemble de participants potentiels compétents disposent de mécanismes qui pénalisent les participants en surapprentissage offrent des incitations (financières) suffisantes pour pousser les participants à fournir un effort réel de résolution donnent lieu à une revue publique des solutions gagnantes (après la fin de la compétition) Solutions gagnantes Boîte à outils gagnante : Python, suivi de C++ Packages Python principalement utilisés PyData : Numpy, Pandas, SciPy, Scikit Learn Deep Learning : PyTorch GBDT : LightGBM, XGBoost, CatBoost Optimisation des hyperparamètres : Optuna Suivi des expériences : W&B Visualisation : matplotlib, seaborn Boîte à outils NLP : Transformers Boîte à outils de vision par ordinateur : Albumentations, OpenCV, pillow, scikit-image, timm

Points clés

Les outils convergent vers Python, PyData, Pytorch et les Gradient-boosted Decision Trees (GBDT)
En données tabulaires, le deep learning n’a pas encore remplacé les GBDT
Les transformeurs dominent le NLP et commencent à concurrencer les réseaux neuronaux convolutifs (CNN) en vision par ordinateur
Les compétitions couvrent divers domaines de recherche, notamment la vision par ordinateur, le NLP, les données tabulaires, la robotique et l’analyse de séries temporelles
Des solutions à modèle unique remportent parfois la victoire, mais les grands ensembles remportent généralement les compétitions
Il existe plusieurs plateformes de compétitions de machine learning, ainsi que des dizaines de sites créés pour des compétitions individuelles
Le machine learning compétitif continue de gagner en popularité, y compris dans le monde académique
50 % des vainqueurs sont des participants en solo, 50 % sont des vainqueurs pour la première fois, et 30 % avaient déjà gagné au moins deux fois auparavant
Certains compétiteurs peuvent investir massivement dans le matériel pour entraîner leurs solutions, mais il est toujours possible de gagner en utilisant du matériel gratuit comme Google Colab

Paysage du ML compétitif

Compétitions et tendances notables
- En montant des prix, le Snowcast Showdown de DrivenData (sponsorisé par le Département américain du développement du territoire) : 500 k$ de récompense
- La plus populaire a été l’American Express Default Prediction de Kaggle. Plus de 4 000 équipes y ont participé. Récompense de 100 k$. La 1re place a été remportée par un participant solo débutant (réseau neuronal + LightGBM)
- La plus grande compétition indépendante est l’AI Audit Challenge de Stanford
- Le plus grand domaine était la vision par ordinateur : environnement, médecine
- Le deuxième plus grand domaine était le NLP : NLP + recherche, NLP + Reinforcement Learning
- Le domaine du Sequential Decision-Making est également en croissance
Plateformes
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Autres plateformes intéressantes : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Objectif
- Les compétitions bien organisées
  - proposent, avec les données d’entraînement, des problèmes intéressants qu’on a envie de résoudre
  - réunissent un ensemble de participants potentiels compétents
  - disposent de mécanismes qui pénalisent les participants en surapprentissage
  - offrent des incitations (financières) suffisantes pour pousser les participants à fournir un effort réel de résolution
  - donnent lieu à une revue publique des solutions gagnantes (après la fin de la compétition)

Solutions gagnantes

Boîte à outils gagnante : Python, suivi de C++
Packages Python principalement utilisés
- PyData : Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning : PyTorch
- GBDT : LightGBM, XGBoost, CatBoost
- Optimisation des hyperparamètres : Optuna
- Suivi des expériences : W&B
- Visualisation : matplotlib, seaborn
- Boîte à outils NLP : Transformers
- Boîte à outils de vision par ordinateur : Albumentations, OpenCV, pillow, scikit-image, timm

État du machine learning compétitif en 2022

Points clés

Paysage du ML compétitif

Solutions gagnantes

À lire aussi

Aucun commentaire pour le moment.