Liste de lecture 2025 pour les ingénieurs IA

(latent.space)

45 points par GN⁺ 2025-01-14 | 3 commentaires | Partager sur WhatsApp

50 articles, modèles et blogs pour les ingénieurs IA, répartis en 10 domaines
Inclut les domaines des LLMs, benchmarks, prompting, RAG, agents, génération de code, vision, voix, diffusion et fine-tuning

Section 1 : LLMs de pointe

Modèles OpenAI
- GPT1 (article), GPT2 (article), GPT3 (article), Codex (article), InstructGPT (article), GPT4 (article)
- GPT3.5 (présentation de ChatGPT), 4o (présentation de GPT-4o), o1 (aperçu de o1), o3 (system card)
Modèles Anthropic et Google
- Claude 3 (article), Gemini 1 (article)
- Claude 3.5 Sonnet (détails), Gemini 2.0 Flash (blog officiel), Flash Thinking (documentation de l’API Gemini), Gemma 2 (article)
Famille LLaMA liée à Meta
- LLaMA 1 (article), LLaMA 2 (article), LLaMA 3 (article)
- Modèles étendus : Mistral 7B (article), Mixtral (article), Pixtral (article)
Modèles DeepSeek
- DeepSeek V1 (article), Coder (article), MoE (article), V2 (article), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (article) - modèle intégré à tous les Mac et iPhone
Autres modèles et recherches notables
- Modèles LLM
  - Famille AI2 : Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Autres : Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Recherches sur les scaling laws
  - Scaling Laws : Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modèles de pointe :
  - o1, o3, R1, QwQ, QVQ, f1
- Recherches sur les modèles de raisonnement :
  - Let’s Verify Step By Step, STaR, conférence de Noam Brown

Section 2 : Benchmarks et évaluation

MMLU
- MMLU (article) : le standard des benchmarks de connaissances multidisciplinaires
  - En 2025, la recherche de pointe utilise MMLU Pro (article), GPQA Diamond (article) et BIG-Bench Hard (article)
- GPQA (article) : centré sur la génération de questions et l’évaluation des bonnes réponses
- BIG-Bench (article) : un benchmark à grande échelle couvrant des problèmes variés
MuSR (article) : évaluation en contexte long
- Travaux liés : LongBench (article), BABILong (article), RULER (présentation)
- Problèmes abordés : Lost in the Middle (article), Needle in a Haystack (GitHub)
MATH (article) : recueil de problèmes de concours de mathématiques
- Les recherches de pointe se concentrent sur FrontierMath (article) et les problèmes de haute difficulté
- Sous-ensembles : MATH Level 5, AIME, AMC10/AMC12
IFEval (article) : benchmark majeur pour évaluer le suivi d’instructions
- Adoption officielle par Apple (lien)
- Benchmark lié : MT-Bench (article)
ARC AGI (page officielle) : benchmark de raisonnement abstrait et de type « test de QI »
- Reste pertinent à long terme, contrairement à d’autres benchmarks rapidement saturés
Ressources complémentaires
- Latent Space : Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust : analyses approfondies des benchmarks
- Ressources liées aux LLM : LLM-as-Judge, Applied LLMs
- Ressources sur les datasets : Datasets

Section 3 : Prompting, ICL et chaîne de pensée

GPT-3 et In-Context Learning (ICL)
- Article GPT-3 (article) : introduction du concept d’In-Context Learning (ICL)
- L’ICL est étroitement lié au prompting et permet aux LLM d’apprendre et d’appliquer des modèles dans le contexte
- Prompt Injection : manipulation de prompts et enjeux de sécurité (récapitulatif de Lilian Weng, série de Simon Willison)
The Prompt Report : revue des publications sur le prompting
- Vue d’ensemble : résumé de l’évolution générale des techniques de prompting et des tendances récentes (podcast associé)
Chain-of-Thought (CoT) :
- Modélisation d’un processus de raisonnement étape par étape
- Travaux liés :
  - Scratchpads (article)
  - Let’s Think Step By Step (article)
Tree of Thought :
- Introduction des concepts de lookahead et de backtracking
- Méthode efficace pour résoudre des problèmes complexes (podcast associé)
Prompt Tuning :
- Possibilité d’ajuster les performances du modèle sans prompt :
  - Prefix-Tuning (article)
  - Ajustement du décodage basé sur l’entropie (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering :
- Méthode dans laquelle le LLM génère et optimise lui-même les prompts
- Implémentée dans le framework DSPy (article)
Au-delà des articles de recherche, des guides pratiques sont utiles :
- Le blog Prompt Engineering de Lilian Weng
- Le guide sur le prompting de Eugene Yan
- Tutoriels et workshops d’Anthropic :
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Section 4 : RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval : ouvrage de référence classique couvrant les bases de la recherche d’information
- Le RAG est un problème de recherche d’information (IR), étroitement lié à un domaine qui a plus de 60 ans d’histoire
- Principales techniques :
  - TF-IDF, BM25 : recherche textuelle
  - FAISS, HNSW : recherche vectorielle et recherche de plus proches voisins
Meta RAG (article de 2020) : première apparition du terme RAG
- HyDE (documentation)
- Chunking (recherche)
- Rerankers (blog de Cohere)
- Traitement des données multimodales (YouTube)
MTEB : benchmark d’évaluation des embeddings
- Controverses et limites (discussion associée)
- Exemples de modèles d’embedding :
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (blog HuggingFace)
GraphRAG : intégration du RAG et des graphes de connaissance par Microsoft
- GraphRAG :
  - intègre les graphes de connaissance dans le workflow RAG pour offrir de meilleurs résultats sur des données personnelles
  - passage en open source (blog Microsoft)
- Recherche associée :
  - ColBERT, ColPali, ColQwen
RAGAS : méthode simple d’évaluation du RAG recommandée par OpenAI
- Nvidia FACTS Framework (article)
- Extrinsic Hallucinations in LLMs (enquête de Lilian Weng)
- Recall vs Precision par Jason Wei (tweet)
Ressources d’apprentissage et pratique du RAG
- LlamaIndex (documentation, cours)
- LangChain (documentation, vidéo tutorielle)
- RAG vs Long Context Debate :
  - article : comparaison entre le RAG et les approches à long contexte

Section 5 : Agents

SWE-Bench :
- benchmark de référence pour l’évaluation des agents (axé sur le code)
- fortement remarqué car adopté par Anthropic, Devin, OpenAI, etc.
- ressources associées :
  - SWE-Agent (article)
  - SWE-Bench Multimodal (article)
  - Konwinski Prize (site web)
- comparaison : WebArena (GitHub), SWE-Gym (tweet associé)
ReAct :
- point de départ des recherches sur les LLM autour de l’utilisation d’outils et de l’appel de fonctions
- recherches associées :
  - Gorilla (leaderboard)
  - Toolformer (article)
  - HuggingGPT (article)
MemGPT :
- approche d’émulation de mémoire à long terme
- usages principaux :
  - les fonctions de mémoire et de contrôle de ChatGPT
  - la mémoire épisodique de LangGraph
- systèmes associés :
  - MetaGPT (article)
  - AutoGen (article)
  - Smallville (GitHub)
Voyager :
- approche d’architecture cognitive de Nvidia :
  - amélioration des performances grâce à un curriculum, une bibliothèque de compétences et un sandbox
- extension du concept :
  - Agent Workflow Memory (article)
Anthropic Building Effective Agents :
- synthèse essentielle de la conception d’agents en 2024
- thèmes principaux :
  - chaînage, routage, parallélisation, orchestration, évaluation, optimisation
- ressources associées :
  - les recherches sur les agents de Lilian Weng
  - les recherches sur les agents LLM de Shunyu Yao
  - la vue d’ensemble des agents en 2025 de Chip Huyen
Ressources d’apprentissage et cours supplémentaires
- design des agents le plus récent en 2024 : synthèse NeurIPS
- MOOC UC Berkeley : cours LLM Agents
- discussion sur la définition d’un agent : voir cette définition si nécessaire

Section 6 : Génération de code (CodeGen)

The Stack paper
- a démarré comme pendant orienté code de The Pile en tant que dataset open source
- travaux de suivi :
  - The Stack v2 : dataset amélioré
  - StarCoder : modèle de génération de code optimisé
Articles sur les modèles de code open source
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- beaucoup considèrent Claude 3.5 Sonnet comme le meilleur modèle de code, mais il n’existe pas d’article officiel
HumanEval/Codex
- benchmark indispensable du domaine du code (aujourd’hui saturé)
- benchmarks alternatifs plus modernes :
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - connu pour son évaluation centrée sur les agents, mais coûteux et davantage focalisé sur l’évaluation des agents que des modèles
AlphaCodeium
- fondé sur les performances de AlphaCode et AlphaCode2 de Google
- améliore fortement les performances des modèles existants grâce au Flow Engineering
CriticGPT
- se concentre sur la détection des problèmes de sécurité survenant lors de la génération de code
  - le CriticGPT d’OpenAI est entraîné à identifier les problèmes de sécurité
  - Anthropic utilise les SAEs (Safety-relevant Activation Ensembles) pour analyser les caractéristiques des LLM qui provoquent ces problèmes (recherche)
Dans l’industrie, la génération de code a déplacé son centre de gravité de la recherche vers la pratique :
- utilisation d’agents de code comme Devin (vidéo)
- conseils pratiques sur la génération de code (YouTube)

Section 7 : Vision

Recherche en vision non fondée sur les LLM
- YOLO :
  - Célèbre comme modèle de détection d’objets en temps réel
  - A désormais évolué jusqu’à v11 (GitHub)
  - Recherche récente : les modèles Transformers fondés sur DETR affichent des performances supérieures à YOLO
- À noter : faire attention aux différentes versions de YOLO et à leur lignée d’évolution (discussion associée)
CLIP :
- Un exemple de réussite des modèles multimodaux fondés sur ViT
- Modèles récents :
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP reste une base de connaissances importante
Benchmark MMVP :
- Évalue les limites de CLIP
- Versions multimodales : MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM) :
- Modèle de référence pour la segmentation d’images et de vidéos
- Travaux de suivi : SAM 2 (podcast associé)
- Modèle complémentaire : GroundingDINO
Early Fusion vs Late Fusion :
- Late Fusion : LLaVA (podcast)
- Early Fusion :
  - Flamingo de Meta
  - Chameleon
  - AIMv2 d’Apple
  - Core de Reka
- Ressource utile : évolution de la recherche en vision multimodale
Travaux récents non publiés :
- GPT4V System Card et recherches dérivées (article)
- OpenAI 4o :
  - fine-tuning de 4o Vision
- Modèles récents :
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Autres modèles :
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

Section 8 : Audio

Whisper :
- Le modèle ASR à succès d’OpenAI
- Principales versions :
  - Whisper v2 (discussion associée)
  - Whisper v3 (discussion associée)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (analyse)
- Whisper propose plusieurs modèles à poids ouverts, mais certaines versions n’ont pas de publication associée
AudioPaLM :
- AudioPaLM de Google correspond à des recherches menées avant la transition de PaLM vers Gemini
- À noter : les travaux de Meta sur la voix dans Llama 3 (article)
NaturalSpeech :
- L’un des principaux travaux de recherche en TTS
- Récemment mis à jour en v3 (article)
Kyutai Moshi :
- Modèle open weights voix-texte full-duplex
- Démo de haute qualité (YouTube)
- Modèle connexe : Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual :
- Documentation non officielle sur l’API vocale temps réel d’OpenAI
- Un outil important pour les agents récents et les usages temps réel
Recommandation de diverses solutions au-delà des grands laboratoires :
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Référence : State of Voice AI 2024
- Modèle vocal de NotebookLM :
  - Le modèle n’est pas public, mais une explication détaillée du processus de modélisation est disponible
Gemini 2.0 : modèle multimodal intégrant naturellement la voix et la vision
- Après 2025 : la fusion des modalités voix et vision évolue clairement vers une direction établie

Section 9 : Diffusion image/vidéo

Latent Diffusion :
- Article fondateur de Stable Diffusion
- Versions étendues :
  - SD2 (annonce officielle)
  - SDXL et SD3
- L’équipe développe actuellement BFL Flux
Série OpenAI DALL-E :
- DALL-E, DALL-E-2, DALL-E-3
Série Google Imagen :
- Imagen, Imagen 2, Imagen 3
- À voir aussi : Ideogram
Consistency Models :
- Distillation des modèles de diffusion
- Extensions :
  - LCMs
  - Dernière mise à jour : sCMs
Sora :
- Outil de conversion texte-vers-vidéo d’OpenAI (pas d’article officiel)
- Références :
  - Article sur DiT (mêmes auteurs)
  - OpenSora : modèle concurrent basé sur des open weights
  - Récapitulatif de Lilian Weng
ComfyUI :
- Interface utilisateur de modèles de vision qui attire l’attention (interview associée)
Domaines spécialisés :
- Text Diffusion : modèles de diffusion textuels
- Music Diffusion : diffusion pour la génération musicale
- Autoregressive Image Generation : génération d’images autorégressive
Concurrence open weights :
- Text-to-Video Arena
Comprendre les tendances récentes :
- Utilisation des modèles Stable Diffusion et DALL-E
- Recherche sur la fusion des modalités texte et vidéo

Section 10 : Finetuning de modèles

LoRA/QLoRA :
- Standard du finetuning low cost
- Principales applications :
  - Pris en charge aussi bien sur les modèles locaux que sur le 4o d’OpenAI (voir le podcast)
  - FSDP+QLoRA : ressource pédagogique
DPO :
- Pris en charge dans le Preference Finetuning d’OpenAI
- Populaire comme alternative au PPO (article), mais avec des performances légèrement inférieures
ReFT :
- Se concentre sur les features du modèle plutôt que de finetuner certaines couches existantes
- Approche efficace de finetuning
Orca 3/AgentInstruct :
- Méthode bien adaptée à la génération de données synthétiques
- Recherche associée :
  - Synthetic Data Picks de la NeurIPS
Réglage RL :
- Le RL Finetuning for o1 d’OpenAI est controversé, mais reste une ressource importante
- Recherche associée :
  - Let’s Verify Step By Step
  - Conférence de Noam Brown
Notebooks Unsloth :
- Des notebooks orientés pratique sont disponibles sur GitHub
Guide HuggingFace :
- How to fine-tune open LLMs : guide approfondi sur l’ensemble du processus de finetuning

Conclusion de la liste de lecture 2025 pour les ingénieurs IA

Cette liste est vaste et peut sembler intimidante, mais ce n’est pas grave si vous abandonnez en cours de route. L’important, c’est de recommencer
Elle continuera à être mise à jour tout au long de 2025 afin de rester à jour
Vous pouvez aussi construire votre propre méthode d’apprentissage, mais comment lire des articles en une heure peut être utile
Des conseils de lecture et d’apprentissage sont disponibles ici
Apprendre avec la communauté
- Groupes Discord et Telegram :
  - Groupe Discord de Krispin : https://app.discuna.com/invite/ai_engineer
  - Groupe Telegram de Fed of Flow AI, actif à NYC : AI NYC Telegram
  - Rejoindre la communauté Discord de Latent Space : lien d’invitation Discord
- Partager ses notes et surlignages :
  - Blog lancé par le lecteur Niels : notes sur la 2025 AI Engineer Reading List

3 commentaires

kipsong133 2025-01-16

À bien y regarder, il y a vraiment encore énormément de ressources qui méritent d’être lues en détail.

GN⁺ 2025-01-14

Avis Hacker News

La plupart des articles mettent l’accent sur l’acquisition de connaissances plutôt que sur une compréhension approfondie. Si vous n’êtes pas familier du sujet, mieux vaut commencer par des manuels plutôt que par des articles. Le récent "Deep Learning: Foundations and Concepts (2024)" de Bishop et "AI Engineering (2024)" de Chip Huyen sont de bonnes ressources. "Dive into Deep Learning" et les ressources de fast.ai sont aussi recommandés
Je ne sais pas vraiment ce qu’est le métier d’"AI Engineer", mais je doute qu’il soit réellement nécessaire de lire des articles de recherche. Si vous ne travaillez pas à la pointe de l’IA, lire des articles peut ne pas avoir grand intérêt. Il est plus important de comprendre les réponses des LLM et de construire des applications conviviales. Quand on utilise les API d’OpenAI ou de Groq, connaître la différence entre "multi head attention" et "single head attention" n’est pas particulièrement utile
Établir une telle liste est un travail difficile. Il existe beaucoup d’autres candidats pertinents en plus de ceux qui ont été retenus, donc il faut voir cela comme un cursus, et comprendre que les articles actuels sur le sujet sont des pointeurs mouvants plutôt que des références fixes. Une liste de lecture spécifique est traitée dans un paper club
Les méthodes d’instruction fine-tuning de la plupart des modèles open source viennent d’Alpaca. Il faudrait aussi inclure l’article sur Alpaca et celui sur la génération de données synthétiques
Au lieu de perdre du temps à lire et à essayer de comprendre des articles sur l’IA et les LLM, mieux vaut lire des choses sur ELIZA et essayer d’en construire une soi-même. Il faut se concentrer sur les tenseurs, les vecteurs, les champs, la linguistique, l’architecture informatique et les réseaux
La liste de lecture date d’environ un an. En 2025, il faut se concentrer sur des techniques comme KTO, RLOO et DPO. En 2025, il faut se concentrer uniquement sur la distillation et l’optimisation. Le CoT n’est pas nouveau, et c’est le CoT modifié qui est essentiel
Il est intéressant de voir à quel point le terme "IA" a été presque entièrement absorbé par les avancées récentes du DL. Il n’y a aucune mention de Russell & Norvig, Minsky, Shannon, Lenat, etc. Si vous souhaitez une introduction à des sujets plus larges liés à l’IA, la plupart des cursus universitaires de deuxième cycle utilisent le même livre
Excellente enquête. En la combinant avec le cours ci-dessous, on peut obtenir les meilleurs résultats
Excellente liste

francomoon7 2025-01-16

Qu’est-ce que cela signifie de construire soi-même Eliza ?