- 50 articles, modèles et blogs pour les ingénieurs IA, répartis en 10 domaines
- Inclut les domaines des LLMs, benchmarks, prompting, RAG, agents, génération de code, vision, voix, diffusion et fine-tuning
Section 1 : LLMs de pointe
- Modèles OpenAI
- Modèles Anthropic et Google
- Famille LLaMA liée à Meta
- Modèles DeepSeek
- Apple Intelligence
- Apple Intelligence (article) - modèle intégré à tous les Mac et iPhone
- Autres modèles et recherches notables
- Modèles LLM
- Famille AI2 : Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Autres : Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Recherches sur les scaling laws
- Modèles de pointe :
- Recherches sur les modèles de raisonnement :
Section 2 : Benchmarks et évaluation
- MMLU
- MMLU (article) : le standard des benchmarks de connaissances multidisciplinaires
- En 2025, la recherche de pointe utilise MMLU Pro (article), GPQA Diamond (article) et BIG-Bench Hard (article)
- GPQA (article) : centré sur la génération de questions et l’évaluation des bonnes réponses
- BIG-Bench (article) : un benchmark à grande échelle couvrant des problèmes variés
- MuSR (article) : évaluation en contexte long
- MATH (article) : recueil de problèmes de concours de mathématiques
- Les recherches de pointe se concentrent sur FrontierMath (article) et les problèmes de haute difficulté
- Sous-ensembles : MATH Level 5, AIME, AMC10/AMC12
- IFEval (article) : benchmark majeur pour évaluer le suivi d’instructions
- Adoption officielle par Apple (lien)
- Benchmark lié : MT-Bench (article)
- ARC AGI (page officielle) : benchmark de raisonnement abstrait et de type « test de QI »
- Reste pertinent à long terme, contrairement à d’autres benchmarks rapidement saturés
- Ressources complémentaires
Section 3 : Prompting, ICL et chaîne de pensée
- GPT-3 et In-Context Learning (ICL)
- Article GPT-3 (article) : introduction du concept d’In-Context Learning (ICL)
- L’ICL est étroitement lié au prompting et permet aux LLM d’apprendre et d’appliquer des modèles dans le contexte
- Prompt Injection : manipulation de prompts et enjeux de sécurité (récapitulatif de Lilian Weng, série de Simon Willison)
- The Prompt Report : revue des publications sur le prompting
- Vue d’ensemble : résumé de l’évolution générale des techniques de prompting et des tendances récentes (podcast associé)
- Chain-of-Thought (CoT) :
- Modélisation d’un processus de raisonnement étape par étape
- Travaux liés :
- Tree of Thought :
- Introduction des concepts de lookahead et de backtracking
- Méthode efficace pour résoudre des problèmes complexes (podcast associé)
- Prompt Tuning :
- Possibilité d’ajuster les performances du modèle sans prompt :
- Prefix-Tuning (article)
- Ajustement du décodage basé sur l’entropie (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering :
- Méthode dans laquelle le LLM génère et optimise lui-même les prompts
- Implémentée dans le framework DSPy (article)
- Au-delà des articles de recherche, des guides pratiques sont utiles :
Section 4 : RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval : ouvrage de référence classique couvrant les bases de la recherche d’information
- Le RAG est un problème de recherche d’information (IR), étroitement lié à un domaine qui a plus de 60 ans d’histoire
- Principales techniques :
- TF-IDF, BM25 : recherche textuelle
- FAISS, HNSW : recherche vectorielle et recherche de plus proches voisins
- Meta RAG (article de 2020) : première apparition du terme RAG
- MTEB : benchmark d’évaluation des embeddings
- GraphRAG : intégration du RAG et des graphes de connaissance par Microsoft
- GraphRAG :
- intègre les graphes de connaissance dans le workflow RAG pour offrir de meilleurs résultats sur des données personnelles
- passage en open source (blog Microsoft)
- Recherche associée :
- RAGAS : méthode simple d’évaluation du RAG recommandée par OpenAI
- Ressources d’apprentissage et pratique du RAG
Section 5 : Agents
- SWE-Bench :
- benchmark de référence pour l’évaluation des agents (axé sur le code)
- fortement remarqué car adopté par Anthropic, Devin, OpenAI, etc.
- ressources associées :
- comparaison : WebArena (GitHub), SWE-Gym (tweet associé)
- ReAct :
- point de départ des recherches sur les LLM autour de l’utilisation d’outils et de l’appel de fonctions
- recherches associées :
- MemGPT :
- approche d’émulation de mémoire à long terme
- usages principaux :
- systèmes associés :
- Voyager :
- approche d’architecture cognitive de Nvidia :
- amélioration des performances grâce à un curriculum, une bibliothèque de compétences et un sandbox
- extension du concept :
- Anthropic Building Effective Agents :
- synthèse essentielle de la conception d’agents en 2024
- thèmes principaux :
- chaînage, routage, parallélisation, orchestration, évaluation, optimisation
- ressources associées :
- Ressources d’apprentissage et cours supplémentaires
Section 6 : Génération de code (CodeGen)
- The Stack paper
- a démarré comme pendant orienté code de The Pile en tant que dataset open source
- travaux de suivi :
- Articles sur les modèles de code open source
- HumanEval/Codex
- benchmark indispensable du domaine du code (aujourd’hui saturé)
- benchmarks alternatifs plus modernes :
- SWE-Bench
- connu pour son évaluation centrée sur les agents, mais coûteux et davantage focalisé sur l’évaluation des agents que des modèles
- AlphaCodeium
- fondé sur les performances de AlphaCode et AlphaCode2 de Google
- améliore fortement les performances des modèles existants grâce au Flow Engineering
- CriticGPT
- se concentre sur la détection des problèmes de sécurité survenant lors de la génération de code
- le CriticGPT d’OpenAI est entraîné à identifier les problèmes de sécurité
- Anthropic utilise les SAEs (Safety-relevant Activation Ensembles) pour analyser les caractéristiques des LLM qui provoquent ces problèmes (recherche)
- Dans l’industrie, la génération de code a déplacé son centre de gravité de la recherche vers la pratique :
- utilisation d’agents de code comme Devin (vidéo)
- conseils pratiques sur la génération de code (YouTube)
Section 7 : Vision
- Recherche en vision non fondée sur les LLM
- YOLO :
- Célèbre comme modèle de détection d’objets en temps réel
- A désormais évolué jusqu’à v11 (GitHub)
- Recherche récente : les modèles Transformers fondés sur DETR affichent des performances supérieures à YOLO
- À noter : faire attention aux différentes versions de YOLO et à leur lignée d’évolution (discussion associée)
- CLIP :
- Un exemple de réussite des modèles multimodaux fondés sur ViT
- Modèles récents :
- CLIP reste une base de connaissances importante
- Benchmark MMVP :
- Segment Anything Model (SAM) :
- Early Fusion vs Late Fusion :
- Travaux récents non publiés :
- GPT4V System Card et recherches dérivées (article)
- OpenAI 4o :
- Modèles récents :
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Autres modèles :
Section 8 : Audio
- Whisper :
- Le modèle ASR à succès d’OpenAI
- Principales versions :
- Whisper propose plusieurs modèles à poids ouverts, mais certaines versions n’ont pas de publication associée
- AudioPaLM :
- AudioPaLM de Google correspond à des recherches menées avant la transition de PaLM vers Gemini
- À noter : les travaux de Meta sur la voix dans Llama 3 (article)
- NaturalSpeech :
- L’un des principaux travaux de recherche en TTS
- Récemment mis à jour en v3 (article)
- Kyutai Moshi :
- Modèle open weights voix-texte full-duplex
- Démo de haute qualité (YouTube)
- Modèle connexe : Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual :
- Documentation non officielle sur l’API vocale temps réel d’OpenAI
- Un outil important pour les agents récents et les usages temps réel
- Recommandation de diverses solutions au-delà des grands laboratoires :
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Référence : State of Voice AI 2024
- Modèle vocal de NotebookLM :
- Gemini 2.0 : modèle multimodal intégrant naturellement la voix et la vision
- Après 2025 : la fusion des modalités voix et vision évolue clairement vers une direction établie
Section 9 : Diffusion image/vidéo
- Latent Diffusion :
- Article fondateur de Stable Diffusion
- Versions étendues :
- L’équipe développe actuellement BFL Flux
- Série OpenAI DALL-E :
- Série Google Imagen :
- Consistency Models :
- Distillation des modèles de diffusion
- Extensions :
- Sora :
- Outil de conversion texte-vers-vidéo d’OpenAI (pas d’article officiel)
- Références :
- ComfyUI :
- Domaines spécialisés :
- Concurrence open weights :
- Comprendre les tendances récentes :
- Utilisation des modèles Stable Diffusion et DALL-E
- Recherche sur la fusion des modalités texte et vidéo
Section 10 : Finetuning de modèles
- LoRA/QLoRA :
- Standard du finetuning low cost
- Principales applications :
- DPO :
- Pris en charge dans le Preference Finetuning d’OpenAI
- Populaire comme alternative au PPO (article), mais avec des performances légèrement inférieures
- ReFT :
- Se concentre sur les features du modèle plutôt que de finetuner certaines couches existantes
- Approche efficace de finetuning
- Orca 3/AgentInstruct :
- Méthode bien adaptée à la génération de données synthétiques
- Recherche associée :
- Réglage RL :
- Le RL Finetuning for o1 d’OpenAI est controversé, mais reste une ressource importante
- Recherche associée :
- Notebooks Unsloth :
- Des notebooks orientés pratique sont disponibles sur GitHub
- Guide HuggingFace :
Conclusion de la liste de lecture 2025 pour les ingénieurs IA
- Cette liste est vaste et peut sembler intimidante, mais ce n’est pas grave si vous abandonnez en cours de route. L’important, c’est de recommencer
- Elle continuera à être mise à jour tout au long de 2025 afin de rester à jour
- Vous pouvez aussi construire votre propre méthode d’apprentissage, mais comment lire des articles en une heure peut être utile
- Des conseils de lecture et d’apprentissage sont disponibles ici
- Apprendre avec la communauté
- Groupes Discord et Telegram :
- Partager ses notes et surlignages :
3 commentaires
À bien y regarder, il y a vraiment encore énormément de ressources qui méritent d’être lues en détail.
Avis Hacker News
La plupart des articles mettent l’accent sur l’acquisition de connaissances plutôt que sur une compréhension approfondie. Si vous n’êtes pas familier du sujet, mieux vaut commencer par des manuels plutôt que par des articles. Le récent "Deep Learning: Foundations and Concepts (2024)" de Bishop et "AI Engineering (2024)" de Chip Huyen sont de bonnes ressources. "Dive into Deep Learning" et les ressources de fast.ai sont aussi recommandés
Je ne sais pas vraiment ce qu’est le métier d’"AI Engineer", mais je doute qu’il soit réellement nécessaire de lire des articles de recherche. Si vous ne travaillez pas à la pointe de l’IA, lire des articles peut ne pas avoir grand intérêt. Il est plus important de comprendre les réponses des LLM et de construire des applications conviviales. Quand on utilise les API d’OpenAI ou de Groq, connaître la différence entre "multi head attention" et "single head attention" n’est pas particulièrement utile
Établir une telle liste est un travail difficile. Il existe beaucoup d’autres candidats pertinents en plus de ceux qui ont été retenus, donc il faut voir cela comme un cursus, et comprendre que les articles actuels sur le sujet sont des pointeurs mouvants plutôt que des références fixes. Une liste de lecture spécifique est traitée dans un paper club
Les méthodes d’instruction fine-tuning de la plupart des modèles open source viennent d’Alpaca. Il faudrait aussi inclure l’article sur Alpaca et celui sur la génération de données synthétiques
Au lieu de perdre du temps à lire et à essayer de comprendre des articles sur l’IA et les LLM, mieux vaut lire des choses sur ELIZA et essayer d’en construire une soi-même. Il faut se concentrer sur les tenseurs, les vecteurs, les champs, la linguistique, l’architecture informatique et les réseaux
La liste de lecture date d’environ un an. En 2025, il faut se concentrer sur des techniques comme KTO, RLOO et DPO. En 2025, il faut se concentrer uniquement sur la distillation et l’optimisation. Le CoT n’est pas nouveau, et c’est le CoT modifié qui est essentiel
Il est intéressant de voir à quel point le terme "IA" a été presque entièrement absorbé par les avancées récentes du DL. Il n’y a aucune mention de Russell & Norvig, Minsky, Shannon, Lenat, etc. Si vous souhaitez une introduction à des sujets plus larges liés à l’IA, la plupart des cursus universitaires de deuxième cycle utilisent le même livre
Excellente enquête. En la combinant avec le cours ci-dessous, on peut obtenir les meilleurs résultats
Excellente liste
Qu’est-ce que cela signifie de construire soi-même Eliza ?