45 points par GN⁺ 2025-01-14 | 3 commentaires | Partager sur WhatsApp
  • 50 articles, modèles et blogs pour les ingénieurs IA, répartis en 10 domaines
  • Inclut les domaines des LLMs, benchmarks, prompting, RAG, agents, génération de code, vision, voix, diffusion et fine-tuning

Section 1 : LLMs de pointe

Section 2 : Benchmarks et évaluation

  • MMLU
    • MMLU (article) : le standard des benchmarks de connaissances multidisciplinaires
      • En 2025, la recherche de pointe utilise MMLU Pro (article), GPQA Diamond (article) et BIG-Bench Hard (article)
    • GPQA (article) : centré sur la génération de questions et l’évaluation des bonnes réponses
    • BIG-Bench (article) : un benchmark à grande échelle couvrant des problèmes variés
  • MuSR (article) : évaluation en contexte long
  • MATH (article) : recueil de problèmes de concours de mathématiques
    • Les recherches de pointe se concentrent sur FrontierMath (article) et les problèmes de haute difficulté
    • Sous-ensembles : MATH Level 5, AIME, AMC10/AMC12
  • IFEval (article) : benchmark majeur pour évaluer le suivi d’instructions
    • Adoption officielle par Apple (lien)
    • Benchmark lié : MT-Bench (article)
  • ARC AGI (page officielle) : benchmark de raisonnement abstrait et de type « test de QI »
    • Reste pertinent à long terme, contrairement à d’autres benchmarks rapidement saturés
  • Ressources complémentaires

Section 3 : Prompting, ICL et chaîne de pensée

Section 4 : RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval : ouvrage de référence classique couvrant les bases de la recherche d’information
    • Le RAG est un problème de recherche d’information (IR), étroitement lié à un domaine qui a plus de 60 ans d’histoire
    • Principales techniques :
      • TF-IDF, BM25 : recherche textuelle
      • FAISS, HNSW : recherche vectorielle et recherche de plus proches voisins
  • Meta RAG (article de 2020) : première apparition du terme RAG
  • MTEB : benchmark d’évaluation des embeddings
  • GraphRAG : intégration du RAG et des graphes de connaissance par Microsoft
    • GraphRAG :
      • intègre les graphes de connaissance dans le workflow RAG pour offrir de meilleurs résultats sur des données personnelles
      • passage en open source (blog Microsoft)
    • Recherche associée :
  • RAGAS : méthode simple d’évaluation du RAG recommandée par OpenAI
  • Ressources d’apprentissage et pratique du RAG

Section 5 : Agents

Section 6 : Génération de code (CodeGen)

  • The Stack paper
    • a démarré comme pendant orienté code de The Pile en tant que dataset open source
    • travaux de suivi :
  • Articles sur les modèles de code open source
  • HumanEval/Codex
    • benchmark indispensable du domaine du code (aujourd’hui saturé)
    • benchmarks alternatifs plus modernes :
    • SWE-Bench
      • connu pour son évaluation centrée sur les agents, mais coûteux et davantage focalisé sur l’évaluation des agents que des modèles
  • AlphaCodeium
    • fondé sur les performances de AlphaCode et AlphaCode2 de Google
    • améliore fortement les performances des modèles existants grâce au Flow Engineering
  • CriticGPT
    • se concentre sur la détection des problèmes de sécurité survenant lors de la génération de code
      • le CriticGPT d’OpenAI est entraîné à identifier les problèmes de sécurité
      • Anthropic utilise les SAEs (Safety-relevant Activation Ensembles) pour analyser les caractéristiques des LLM qui provoquent ces problèmes (recherche)
  • Dans l’industrie, la génération de code a déplacé son centre de gravité de la recherche vers la pratique :
    • utilisation d’agents de code comme Devin (vidéo)
    • conseils pratiques sur la génération de code (YouTube)

Section 7 : Vision

Section 8 : Audio

  • Whisper :
    • Le modèle ASR à succès d’OpenAI
    • Principales versions :
    • Whisper propose plusieurs modèles à poids ouverts, mais certaines versions n’ont pas de publication associée
  • AudioPaLM :
    • AudioPaLM de Google correspond à des recherches menées avant la transition de PaLM vers Gemini
    • À noter : les travaux de Meta sur la voix dans Llama 3 (article)
  • NaturalSpeech :
    • L’un des principaux travaux de recherche en TTS
    • Récemment mis à jour en v3 (article)
  • Kyutai Moshi :
    • Modèle open weights voix-texte full-duplex
    • Démo de haute qualité (YouTube)
    • Modèle connexe : Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual :
    • Documentation non officielle sur l’API vocale temps réel d’OpenAI
    • Un outil important pour les agents récents et les usages temps réel
  • Recommandation de diverses solutions au-delà des grands laboratoires :
  • Gemini 2.0 : modèle multimodal intégrant naturellement la voix et la vision
    • Après 2025 : la fusion des modalités voix et vision évolue clairement vers une direction établie

Section 9 : Diffusion image/vidéo

Section 10 : Finetuning de modèles

Conclusion de la liste de lecture 2025 pour les ingénieurs IA

3 commentaires

 
kipsong133 2025-01-16

À bien y regarder, il y a vraiment encore énormément de ressources qui méritent d’être lues en détail.

 
GN⁺ 2025-01-14
Avis Hacker News
  • La plupart des articles mettent l’accent sur l’acquisition de connaissances plutôt que sur une compréhension approfondie. Si vous n’êtes pas familier du sujet, mieux vaut commencer par des manuels plutôt que par des articles. Le récent "Deep Learning: Foundations and Concepts (2024)" de Bishop et "AI Engineering (2024)" de Chip Huyen sont de bonnes ressources. "Dive into Deep Learning" et les ressources de fast.ai sont aussi recommandés

  • Je ne sais pas vraiment ce qu’est le métier d’"AI Engineer", mais je doute qu’il soit réellement nécessaire de lire des articles de recherche. Si vous ne travaillez pas à la pointe de l’IA, lire des articles peut ne pas avoir grand intérêt. Il est plus important de comprendre les réponses des LLM et de construire des applications conviviales. Quand on utilise les API d’OpenAI ou de Groq, connaître la différence entre "multi head attention" et "single head attention" n’est pas particulièrement utile

  • Établir une telle liste est un travail difficile. Il existe beaucoup d’autres candidats pertinents en plus de ceux qui ont été retenus, donc il faut voir cela comme un cursus, et comprendre que les articles actuels sur le sujet sont des pointeurs mouvants plutôt que des références fixes. Une liste de lecture spécifique est traitée dans un paper club

  • Les méthodes d’instruction fine-tuning de la plupart des modèles open source viennent d’Alpaca. Il faudrait aussi inclure l’article sur Alpaca et celui sur la génération de données synthétiques

  • Au lieu de perdre du temps à lire et à essayer de comprendre des articles sur l’IA et les LLM, mieux vaut lire des choses sur ELIZA et essayer d’en construire une soi-même. Il faut se concentrer sur les tenseurs, les vecteurs, les champs, la linguistique, l’architecture informatique et les réseaux

  • La liste de lecture date d’environ un an. En 2025, il faut se concentrer sur des techniques comme KTO, RLOO et DPO. En 2025, il faut se concentrer uniquement sur la distillation et l’optimisation. Le CoT n’est pas nouveau, et c’est le CoT modifié qui est essentiel

  • Il est intéressant de voir à quel point le terme "IA" a été presque entièrement absorbé par les avancées récentes du DL. Il n’y a aucune mention de Russell & Norvig, Minsky, Shannon, Lenat, etc. Si vous souhaitez une introduction à des sujets plus larges liés à l’IA, la plupart des cursus universitaires de deuxième cycle utilisent le même livre

  • Excellente enquête. En la combinant avec le cours ci-dessous, on peut obtenir les meilleurs résultats

  • Excellente liste

 
francomoon7 2025-01-16

Qu’est-ce que cela signifie de construire soi-même Eliza ?