Liste de lecture 2025 pour les ingénieurs IA
(latent.space)- 50 articles, modèles et blogs pour les ingénieurs IA, répartis en 10 domaines
- Inclut les domaines des LLMs, benchmarks, prompting, RAG, agents, génération de code, vision, voix, diffusion et fine-tuning
Section 1 : LLMs de pointe
- Modèles OpenAI
- GPT1 (article), GPT2 (article), GPT3 (article), Codex (article), InstructGPT (article), GPT4 (article)
- GPT3.5 (présentation de ChatGPT), 4o (présentation de GPT-4o), o1 (aperçu de o1), o3 (system card)
- Modèles Anthropic et Google
- Claude 3 (article), Gemini 1 (article)
- Claude 3.5 Sonnet (détails), Gemini 2.0 Flash (blog officiel), Flash Thinking (documentation de l’API Gemini), Gemma 2 (article)
- Famille LLaMA liée à Meta
- Modèles DeepSeek
- Apple Intelligence
- Apple Intelligence (article) - modèle intégré à tous les Mac et iPhone
- Autres modèles et recherches notables
- Modèles LLM
- Famille AI2 : Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Autres : Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Recherches sur les scaling laws
- Scaling Laws : Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Modèles de pointe :
- Recherches sur les modèles de raisonnement :
- Modèles LLM
Section 2 : Benchmarks et évaluation
- MMLU
- MuSR (article) : évaluation en contexte long
- Travaux liés : LongBench (article), BABILong (article), RULER (présentation)
- Problèmes abordés : Lost in the Middle (article), Needle in a Haystack (GitHub)
- MATH (article) : recueil de problèmes de concours de mathématiques
- Les recherches de pointe se concentrent sur FrontierMath (article) et les problèmes de haute difficulté
- Sous-ensembles : MATH Level 5, AIME, AMC10/AMC12
- IFEval (article) : benchmark majeur pour évaluer le suivi d’instructions
- ARC AGI (page officielle) : benchmark de raisonnement abstrait et de type « test de QI »
- Reste pertinent à long terme, contrairement à d’autres benchmarks rapidement saturés
- Ressources complémentaires
- Latent Space : Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust : analyses approfondies des benchmarks
- Ressources liées aux LLM : LLM-as-Judge, Applied LLMs
- Ressources sur les datasets : Datasets
Section 3 : Prompting, ICL et chaîne de pensée
- GPT-3 et In-Context Learning (ICL)
- Article GPT-3 (article) : introduction du concept d’In-Context Learning (ICL)
- L’ICL est étroitement lié au prompting et permet aux LLM d’apprendre et d’appliquer des modèles dans le contexte
- Prompt Injection : manipulation de prompts et enjeux de sécurité (récapitulatif de Lilian Weng, série de Simon Willison)
- The Prompt Report : revue des publications sur le prompting
- Vue d’ensemble : résumé de l’évolution générale des techniques de prompting et des tendances récentes (podcast associé)
- Chain-of-Thought (CoT) :
- Tree of Thought :
- Introduction des concepts de lookahead et de backtracking
- Méthode efficace pour résoudre des problèmes complexes (podcast associé)
- Prompt Tuning :
- Automatic Prompt Engineering :
- Méthode dans laquelle le LLM génère et optimise lui-même les prompts
- Implémentée dans le framework DSPy (article)
- Au-delà des articles de recherche, des guides pratiques sont utiles :
- Le blog Prompt Engineering de Lilian Weng
- Le guide sur le prompting de Eugene Yan
- Tutoriels et workshops d’Anthropic :
Section 4 : RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval : ouvrage de référence classique couvrant les bases de la recherche d’information
- Le RAG est un problème de recherche d’information (IR), étroitement lié à un domaine qui a plus de 60 ans d’histoire
- Principales techniques :
- TF-IDF, BM25 : recherche textuelle
- FAISS, HNSW : recherche vectorielle et recherche de plus proches voisins
- Meta RAG (article de 2020) : première apparition du terme RAG
- HyDE (documentation)
- Chunking (recherche)
- Rerankers (blog de Cohere)
- Traitement des données multimodales (YouTube)
- MTEB : benchmark d’évaluation des embeddings
- Controverses et limites (discussion associée)
- Exemples de modèles d’embedding :
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (blog HuggingFace)
- GraphRAG : intégration du RAG et des graphes de connaissance par Microsoft
- GraphRAG :
- intègre les graphes de connaissance dans le workflow RAG pour offrir de meilleurs résultats sur des données personnelles
- passage en open source (blog Microsoft)
- Recherche associée :
- ColBERT, ColPali, ColQwen
- GraphRAG :
- RAGAS : méthode simple d’évaluation du RAG recommandée par OpenAI
- Nvidia FACTS Framework (article)
- Extrinsic Hallucinations in LLMs (enquête de Lilian Weng)
- Recall vs Precision par Jason Wei (tweet)
- Ressources d’apprentissage et pratique du RAG
- LlamaIndex (documentation, cours)
- LangChain (documentation, vidéo tutorielle)
- RAG vs Long Context Debate :
- article : comparaison entre le RAG et les approches à long contexte
Section 5 : Agents
- SWE-Bench :
- benchmark de référence pour l’évaluation des agents (axé sur le code)
- fortement remarqué car adopté par Anthropic, Devin, OpenAI, etc.
- ressources associées :
- comparaison : WebArena (GitHub), SWE-Gym (tweet associé)
- ReAct :
- point de départ des recherches sur les LLM autour de l’utilisation d’outils et de l’appel de fonctions
- recherches associées :
- Gorilla (leaderboard)
- Toolformer (article)
- HuggingGPT (article)
- MemGPT :
- approche d’émulation de mémoire à long terme
- usages principaux :
- les fonctions de mémoire et de contrôle de ChatGPT
- la mémoire épisodique de LangGraph
- systèmes associés :
- Voyager :
- approche d’architecture cognitive de Nvidia :
- amélioration des performances grâce à un curriculum, une bibliothèque de compétences et un sandbox
- extension du concept :
- Agent Workflow Memory (article)
- approche d’architecture cognitive de Nvidia :
- Anthropic Building Effective Agents :
- synthèse essentielle de la conception d’agents en 2024
- thèmes principaux :
- chaînage, routage, parallélisation, orchestration, évaluation, optimisation
- ressources associées :
- les recherches sur les agents de Lilian Weng
- les recherches sur les agents LLM de Shunyu Yao
- la vue d’ensemble des agents en 2025 de Chip Huyen
- Ressources d’apprentissage et cours supplémentaires
- design des agents le plus récent en 2024 : synthèse NeurIPS
- MOOC UC Berkeley : cours LLM Agents
- discussion sur la définition d’un agent : voir cette définition si nécessaire
Section 6 : Génération de code (CodeGen)
- The Stack paper
- a démarré comme pendant orienté code de The Pile en tant que dataset open source
- travaux de suivi :
- The Stack v2 : dataset amélioré
- StarCoder : modèle de génération de code optimisé
- Articles sur les modèles de code open source
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- beaucoup considèrent Claude 3.5 Sonnet comme le meilleur modèle de code, mais il n’existe pas d’article officiel
- HumanEval/Codex
- benchmark indispensable du domaine du code (aujourd’hui saturé)
- benchmarks alternatifs plus modernes :
- SWE-Bench
- connu pour son évaluation centrée sur les agents, mais coûteux et davantage focalisé sur l’évaluation des agents que des modèles
- AlphaCodeium
- fondé sur les performances de AlphaCode et AlphaCode2 de Google
- améliore fortement les performances des modèles existants grâce au Flow Engineering
- CriticGPT
- se concentre sur la détection des problèmes de sécurité survenant lors de la génération de code
- le CriticGPT d’OpenAI est entraîné à identifier les problèmes de sécurité
- Anthropic utilise les SAEs (Safety-relevant Activation Ensembles) pour analyser les caractéristiques des LLM qui provoquent ces problèmes (recherche)
- se concentre sur la détection des problèmes de sécurité survenant lors de la génération de code
- Dans l’industrie, la génération de code a déplacé son centre de gravité de la recherche vers la pratique :
Section 7 : Vision
- Recherche en vision non fondée sur les LLM
- YOLO :
- À noter : faire attention aux différentes versions de YOLO et à leur lignée d’évolution (discussion associée)
- CLIP :
- Un exemple de réussite des modèles multimodaux fondés sur ViT
- Modèles récents :
- CLIP reste une base de connaissances importante
- Benchmark MMVP :
- Évalue les limites de CLIP
- Versions multimodales : MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM) :
- Modèle de référence pour la segmentation d’images et de vidéos
- Travaux de suivi : SAM 2 (podcast associé)
- Modèle complémentaire : GroundingDINO
- Early Fusion vs Late Fusion :
- Travaux récents non publiés :
- GPT4V System Card et recherches dérivées (article)
- OpenAI 4o :
- Modèles récents :
Section 8 : Audio
- Whisper :
- Le modèle ASR à succès d’OpenAI
- Principales versions :
- Whisper v2 (discussion associée)
- Whisper v3 (discussion associée)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (analyse)
- Whisper propose plusieurs modèles à poids ouverts, mais certaines versions n’ont pas de publication associée
- AudioPaLM :
- AudioPaLM de Google correspond à des recherches menées avant la transition de PaLM vers Gemini
- À noter : les travaux de Meta sur la voix dans Llama 3 (article)
- NaturalSpeech :
- L’un des principaux travaux de recherche en TTS
- Récemment mis à jour en v3 (article)
- Kyutai Moshi :
- OpenAI Realtime API: The Missing Manual :
- Documentation non officielle sur l’API vocale temps réel d’OpenAI
- Un outil important pour les agents récents et les usages temps réel
- Recommandation de diverses solutions au-delà des grands laboratoires :
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Référence : State of Voice AI 2024
- Modèle vocal de NotebookLM :
- Le modèle n’est pas public, mais une explication détaillée du processus de modélisation est disponible
- Gemini 2.0 : modèle multimodal intégrant naturellement la voix et la vision
- Après 2025 : la fusion des modalités voix et vision évolue clairement vers une direction établie
Section 9 : Diffusion image/vidéo
- Latent Diffusion :
- Article fondateur de Stable Diffusion
- Versions étendues :
- SD2 (annonce officielle)
- SDXL et SD3
- L’équipe développe actuellement BFL Flux
- Série OpenAI DALL-E :
- Série Google Imagen :
- Consistency Models :
- Sora :
- Outil de conversion texte-vers-vidéo d’OpenAI (pas d’article officiel)
- Références :
- Article sur DiT (mêmes auteurs)
- OpenSora : modèle concurrent basé sur des open weights
- Récapitulatif de Lilian Weng
- ComfyUI :
- Interface utilisateur de modèles de vision qui attire l’attention (interview associée)
- Domaines spécialisés :
- Text Diffusion : modèles de diffusion textuels
- Music Diffusion : diffusion pour la génération musicale
- Autoregressive Image Generation : génération d’images autorégressive
- Concurrence open weights :
- Comprendre les tendances récentes :
- Utilisation des modèles Stable Diffusion et DALL-E
- Recherche sur la fusion des modalités texte et vidéo
Section 10 : Finetuning de modèles
- LoRA/QLoRA :
- Standard du finetuning low cost
- Principales applications :
- Pris en charge aussi bien sur les modèles locaux que sur le 4o d’OpenAI (voir le podcast)
- FSDP+QLoRA : ressource pédagogique
- DPO :
- Pris en charge dans le Preference Finetuning d’OpenAI
- Populaire comme alternative au PPO (article), mais avec des performances légèrement inférieures
- ReFT :
- Se concentre sur les features du modèle plutôt que de finetuner certaines couches existantes
- Approche efficace de finetuning
- Orca 3/AgentInstruct :
- Méthode bien adaptée à la génération de données synthétiques
- Recherche associée :
- Synthetic Data Picks de la NeurIPS
- Réglage RL :
- Le RL Finetuning for o1 d’OpenAI est controversé, mais reste une ressource importante
- Recherche associée :
- Let’s Verify Step By Step
- Conférence de Noam Brown
- Notebooks Unsloth :
- Des notebooks orientés pratique sont disponibles sur GitHub
- Guide HuggingFace :
- How to fine-tune open LLMs : guide approfondi sur l’ensemble du processus de finetuning
Conclusion de la liste de lecture 2025 pour les ingénieurs IA
- Cette liste est vaste et peut sembler intimidante, mais ce n’est pas grave si vous abandonnez en cours de route. L’important, c’est de recommencer
- Elle continuera à être mise à jour tout au long de 2025 afin de rester à jour
- Vous pouvez aussi construire votre propre méthode d’apprentissage, mais comment lire des articles en une heure peut être utile
- Des conseils de lecture et d’apprentissage sont disponibles ici
- Apprendre avec la communauté
- Groupes Discord et Telegram :
- Groupe Discord de Krispin : https://app.discuna.com/invite/ai_engineer
- Groupe Telegram de Fed of Flow AI, actif à NYC : AI NYC Telegram
- Rejoindre la communauté Discord de Latent Space : lien d’invitation Discord
- Partager ses notes et surlignages :
- Blog lancé par le lecteur Niels : notes sur la 2025 AI Engineer Reading List
- Groupes Discord et Telegram :
3 commentaires
À bien y regarder, il y a vraiment encore énormément de ressources qui méritent d’être lues en détail.
Avis Hacker News
La plupart des articles mettent l’accent sur l’acquisition de connaissances plutôt que sur une compréhension approfondie. Si vous n’êtes pas familier du sujet, mieux vaut commencer par des manuels plutôt que par des articles. Le récent "Deep Learning: Foundations and Concepts (2024)" de Bishop et "AI Engineering (2024)" de Chip Huyen sont de bonnes ressources. "Dive into Deep Learning" et les ressources de fast.ai sont aussi recommandés
Je ne sais pas vraiment ce qu’est le métier d’"AI Engineer", mais je doute qu’il soit réellement nécessaire de lire des articles de recherche. Si vous ne travaillez pas à la pointe de l’IA, lire des articles peut ne pas avoir grand intérêt. Il est plus important de comprendre les réponses des LLM et de construire des applications conviviales. Quand on utilise les API d’OpenAI ou de Groq, connaître la différence entre "multi head attention" et "single head attention" n’est pas particulièrement utile
Établir une telle liste est un travail difficile. Il existe beaucoup d’autres candidats pertinents en plus de ceux qui ont été retenus, donc il faut voir cela comme un cursus, et comprendre que les articles actuels sur le sujet sont des pointeurs mouvants plutôt que des références fixes. Une liste de lecture spécifique est traitée dans un paper club
Les méthodes d’instruction fine-tuning de la plupart des modèles open source viennent d’Alpaca. Il faudrait aussi inclure l’article sur Alpaca et celui sur la génération de données synthétiques
Au lieu de perdre du temps à lire et à essayer de comprendre des articles sur l’IA et les LLM, mieux vaut lire des choses sur ELIZA et essayer d’en construire une soi-même. Il faut se concentrer sur les tenseurs, les vecteurs, les champs, la linguistique, l’architecture informatique et les réseaux
La liste de lecture date d’environ un an. En 2025, il faut se concentrer sur des techniques comme KTO, RLOO et DPO. En 2025, il faut se concentrer uniquement sur la distillation et l’optimisation. Le CoT n’est pas nouveau, et c’est le CoT modifié qui est essentiel
Il est intéressant de voir à quel point le terme "IA" a été presque entièrement absorbé par les avancées récentes du DL. Il n’y a aucune mention de Russell & Norvig, Minsky, Shannon, Lenat, etc. Si vous souhaitez une introduction à des sujets plus larges liés à l’IA, la plupart des cursus universitaires de deuxième cycle utilisent le même livre
Excellente enquête. En la combinant avec le cours ci-dessous, on peut obtenir les meilleurs résultats
Excellente liste
Qu’est-ce que cela signifie de construire soi-même Eliza ?