21 points par xguru 2023-03-22 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Points clés

  • Les outils convergent vers Python, PyData, Pytorch et les Gradient-boosted Decision Trees (GBDT)
  • En données tabulaires, le deep learning n’a pas encore remplacé les GBDT
  • Les transformeurs dominent le NLP et commencent à concurrencer les réseaux neuronaux convolutifs (CNN) en vision par ordinateur
  • Les compétitions couvrent divers domaines de recherche, notamment la vision par ordinateur, le NLP, les données tabulaires, la robotique et l’analyse de séries temporelles
  • Des solutions à modèle unique remportent parfois la victoire, mais les grands ensembles remportent généralement les compétitions
  • Il existe plusieurs plateformes de compétitions de machine learning, ainsi que des dizaines de sites créés pour des compétitions individuelles
  • Le machine learning compétitif continue de gagner en popularité, y compris dans le monde académique
  • 50 % des vainqueurs sont des participants en solo, 50 % sont des vainqueurs pour la première fois, et 30 % avaient déjà gagné au moins deux fois auparavant
  • Certains compétiteurs peuvent investir massivement dans le matériel pour entraîner leurs solutions, mais il est toujours possible de gagner en utilisant du matériel gratuit comme Google Colab

Paysage du ML compétitif

  • Compétitions et tendances notables
    • En montant des prix, le Snowcast Showdown de DrivenData (sponsorisé par le Département américain du développement du territoire) : 500 k$ de récompense
    • La plus populaire a été l’American Express Default Prediction de Kaggle. Plus de 4 000 équipes y ont participé. Récompense de 100 k$. La 1re place a été remportée par un participant solo débutant (réseau neuronal + LightGBM)
    • La plus grande compétition indépendante est l’AI Audit Challenge de Stanford
    • Le plus grand domaine était la vision par ordinateur : environnement, médecine
    • Le deuxième plus grand domaine était le NLP : NLP + recherche, NLP + Reinforcement Learning
    • Le domaine du Sequential Decision-Making est également en croissance
  • Plateformes
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • Autres plateformes intéressantes : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Objectif
    • Les compétitions bien organisées
      • proposent, avec les données d’entraînement, des problèmes intéressants qu’on a envie de résoudre
      • réunissent un ensemble de participants potentiels compétents
      • disposent de mécanismes qui pénalisent les participants en surapprentissage
      • offrent des incitations (financières) suffisantes pour pousser les participants à fournir un effort réel de résolution
      • donnent lieu à une revue publique des solutions gagnantes (après la fin de la compétition)

Solutions gagnantes

  • Boîte à outils gagnante : Python, suivi de C++
  • Packages Python principalement utilisés
    • PyData : Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning : PyTorch
    • GBDT : LightGBM, XGBoost, CatBoost
    • Optimisation des hyperparamètres : Optuna
    • Suivi des expériences : W&B
    • Visualisation : matplotlib, seaborn
    • Boîte à outils NLP : Transformers
    • Boîte à outils de vision par ordinateur : Albumentations, OpenCV, pillow, scikit-image, timm

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.