Ask HN : quelles sont les tendances en ML qui ne se font pas couvrir par le bruit des LLM ?

(news.ycombinator.com)

19 points par GN⁺ 2024-03-29 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Beaucoup de choses intéressantes se passent en apprentissage automatique (ML) et en data science, mais elles passent inaperçues sous le bruit des grands modèles de langage (LLM)
Cynthia Rudin continue de publier d’excellents travaux sur l’intelligence artificielle (IA) explicable
Projets intéressants de ces derniers mois :
- Reconstruction de scènes 3D à partir de quelques images : NAVER LABS Europe
- Avatars gaussiens : Gaussian Avatars
- Codec gaussien relightable : Relightable Gaussian Codec
- Suivre tout : Co-Tracker, Omnimotion
- Segmenter tout : Segment Anything by Facebook Research
- Excellents modèles d’estimation de pose humaine : Yolov8, les modèles MediaPipe de Google
- TTS réaliste : XTTS-v2 by Coqui on Hugging Face, Bark TTS
- Excellente STT : majoritairement basée sur Whisper
- Traduction automatique : par exemple SeamlessM4T de Meta
- Admiration pour les nombreux résultats issus de la R&D de Meta
Explication des NeRFs :
- Une remise en question fondamentale de la 3D graphique, où l’on place des sphères translucides lumineuses à la place de polygones texturés
- La position et la couleur de ces sphères sont apprises par un réseau neuronal à partir de prises de vue multi-angles précises et de leurs poses, puis peuvent être rendues par ray tracing sur GPU
- Comme les scènes sont générées à partir de photos, elles sont entièrement réalistes, tout en restant explorables
- En théorie, il serait possible d’animer ces scènes, mais la manière concrète de le faire reste une question de recherche
- On ne sait pas encore si cela surpassera des systèmes optimisés à base de polygones comme Nanite+photogrammetry
Question sur un outil capable de créer une scène 3D à partir de vidéos de route filmées depuis une voiture :
- L’accent est mis sur le paysage au bord de la route, avec la possibilité de rouler plusieurs fois sous différents angles, et un temps de traitement long n’est pas un problème
- L’objectif est de créer des routes locales à utiliser dans un simulateur de course
Intérêt pour le geometric deep learning :
- Comment concevoir des modèles de façon principielle pour qu’ils respectent les symétries connues des données
- Les ConvNets sont célèbres pour leur équivariance aux translations, mais il existe aussi des exemples récents pour d’autres groupes de symétrie
- La question se pose aussi de savoir s’il est possible de découvrir ou d’identifier automatiquement certaines symétries
Présentation du marathon de machine learning organisé par la communauté ML+X de l’UW-Madison :
- Un événement estival d’environ 12 semaines qui sera mis en avant comme compétition sur Kaggle
- Une occasion d’apprendre et d’appliquer ensemble des outils de machine learning afin de trouver des solutions innovantes sur des jeux de données réels
- Plusieurs défis sont proposés, adaptés aussi bien aux débutants qu’aux praticiens avancés
- Participants, conseillers de projet et organisateurs se réunissent chaque semaine ou toutes les deux semaines pour partager des conseils et faire de courtes démos/discussions
- Au-delà des bénéfices intrinsèques en progression technique et en création de communauté, des prix en argent sont prévus pour l’équipe gagnante
Présentation de RT-2, un modèle Vision-Language-Action (VLA), cousin des LLM :
- En plus des données textuelles et visuelles, il intègre des données de mouvement robotique comme « une autre langue », utilisées comme tokens produisant les actions de déplacement du robot
Avis selon lequel les modèles de vision par ordinateur de la famille SAM ont rendu en partie inutiles de nombreux services et outils d’annotation humaine :
- Il devient possible d’obtenir un étiquetage automatique des données visuelles avec une qualité relativement élevée
Retour d’expérience sur le lancement de Scholars.io pour obtenir les dernières recherches sur des sujets précis dans arXiv :
- L’espoir est d’aider d’autres personnes à trouver l’activité de recherche au-delà des LLM, grâce au filtrage des travaux qui ne les intéressent pas
Question sur l’intérêt de continuer à apprendre le ML en 2024, avec mention d’une intuition personnelle :
- Partage d’une expérience de travail sur des projets annexes avec xgboost
- Impression que le ML reste précieux, sans pouvoir en être totalement certain

Ask HN : quelles sont les tendances en ML qui ne se font pas couvrir par le bruit des LLM ?

À lire aussi

Aucun commentaire pour le moment.