LLM-Wiki - Construire un dépôt de connaissances personnel avec des LLM
(gist.github.com/karpathy)- Andrej Karpathy a récemment expliqué qu’il dépensait désormais plus de tokens pour construire un dépôt de connaissances personnel que pour coder, et a publié un fichier guide d’idées pour générer ce wiki basé sur des LLM
- Il suffit de transmettre ce fichier à un agent, qui génère ensuite le wiki de lui-même et en guide l’usage
- Au lieu d’un modèle RAG qui réextrait l’information depuis les sources à chaque requête, le système repose sur un wiki persistant où le LLM rédige et maintient directement le wiki, ce qui permet une accumulation progressive des connaissances
- Le wiki reste ouvert dans des outils comme Obsidian, tandis que le LLM édite et met à jour les fichiers Markdown en temps réel ; l’utilisateur se concentre sur le sourcing et les questions
- Lorsqu’une nouvelle source est ajoutée, le LLM la lit puis l’intègre au wiki existant avec des références croisées ; le traitement d’une seule source peut mettre à jour 10 à 15 pages du wiki
- Applicable à tous les domaines où les connaissances s’accumulent dans le temps : santé et objectifs personnels, recherche, notes de lecture, wiki interne d’équipe, etc.
- En ramenant à presque zéro le coût de tenue à jour qui constituait le principal frein à la maintenance d’un wiki, le LLM résout un problème pour lequel beaucoup finissaient par abandonner
Idée clé
- La plupart des usages documentaires des LLM reposent sur le RAG (Retrieval-Augmented Generation) : on téléverse une collection de fichiers, puis le LLM recherche les extraits pertinents au moment de la requête pour générer une réponse
- NotebookLM, le téléversement de fichiers dans ChatGPT, et la plupart des systèmes RAG fonctionnent ainsi
- Les connaissances sont réextraites à chaque fois, sans accumulation de savoir
- L’approche de LLM-Wiki est différente : au lieu que le LLM cherche directement dans les sources, il construit et maintient progressivement un wiki persistant
- Lorsqu’une nouvelle source est ajoutée, le LLM la lit, en extrait les informations clés et les intègre au wiki existant
- Mise à jour des pages d’entités, révision des résumés thématiques, signalement des contradictions avec les affirmations existantes, renforcement de la synthèse
- Le wiki devient un artefact persistant à accumulation composée : les références croisées sont déjà en place, les contradictions déjà signalées, la synthèse déjà intégrée
- Exemple d’usage concret : un agent LLM ouvert d’un côté, Obsidian de l’autre, avec visualisation en temps réel des modifications apportées par le LLM
- Obsidian = IDE, LLM = programmeur, wiki = base de code
Domaines d’application
- Personnel : suivi des objectifs, de la santé, de la psychologie, du développement personnel — rassembler journaux, articles et notes de podcasts pour construire un historique structuré de soi
- Recherche : construire sur plusieurs semaines ou mois un wiki complet portant une thèse évolutive, à partir de lectures d’articles, de papiers et de rapports
- Lecture : organiser chapitre par chapitre avec des pages pour les personnages, les thèmes et les arcs narratifs — un lecteur individuel peut créer des milliers de pages interconnectées, à la manière de Tolkien Gateway
- Business / équipe : constituer un wiki interne maintenu par LLM à partir de fils Slack, transcriptions de réunions, documents projet et appels clients
- Aussi applicable à l’analyse concurrentielle, la due diligence, la planification de voyage, les notes de cours, l’exploration approfondie de loisirs et à tout domaine où les connaissances s’accumulent
Architecture (3 couches)
- Sources brutes (Raw sources) : collection de documents source sélectionnés — articles, papiers, images, fichiers de données
- Immuables : le LLM les lit mais ne les modifie pas
- Cette couche constitue la source de vérité (source of truth)
- Le wiki (The wiki) : répertoire de fichiers Markdown générés par le LLM — résumés, pages d’entités, pages de concepts, comparaisons, aperçus, synthèses
- Le LLM contrôle entièrement cette couche : création de pages, mise à jour lors de l’ajout de sources, maintenance des références croisées
- L’utilisateur lit, le LLM écrit
- Le schéma (The schema) : document de configuration qui indique au LLM la structure du wiki, les conventions et le workflow (
CLAUDE.mdpour Claude Code,AGENTS.mdpour Codex)- Fichier de configuration clé qui transforme le LLM, d’un simple chatbot, en gestionnaire de wiki systématique
- Il évolue avec le temps, conjointement entre l’utilisateur et le LLM
Opérations principales
- Ingest : ajouter une nouvelle source à la collection brute et demander au LLM de la traiter
- Le LLM lit la source → discute du contenu principal → rédige une page de résumé dans le wiki → met à jour l’index → met à jour les pages d’entités et de concepts liées → ajoute une entrée au journal
- Une seule source peut affecter 10 à 15 pages du wiki
- On peut traiter les sources une par une avec supervision, ou réduire l’intervention humaine pour fonctionner par lots
- Query : poser une question au wiki ; le LLM trouve les pages pertinentes et synthétise une réponse avec citations
- La réponse peut prendre des formes variées : page Markdown, tableau comparatif, slide deck (Marp), graphique (matplotlib), canvas, etc.
- Une bonne réponse peut être réenregistrée comme nouvelle page du wiki — l’exploration elle-même enrichit la base de connaissances
- Lint : demander périodiquement au LLM de vérifier l’état du wiki
- Points de contrôle : contradictions entre pages, affirmations obsolètes remplacées par des sources plus récentes, pages orphelines sans liens entrants, concepts importants sans page dédiée, références croisées manquantes, lacunes de données pouvant être comblées par recherche web
Indexation et journalisation
- index.md : fichier centré sur le contenu — catalogue toutes les pages du wiki avec liens, résumé d’une ligne et métadonnées
- Pour répondre à une requête, le LLM lit d’abord l’index puis explore les pages pertinentes
- Fonctionne bien à l’échelle de ~100 sources et plusieurs centaines de pages sans infrastructure RAG basée sur des embeddings
- log.md : enregistrement chronologique — consigne dans l’ordre les traitements d’ingest, les requêtes et les passages de lint
- Si chaque entrée suit un préfixe cohérent, elle peut être parsée avec des outils Unix
- Exemple :
## [2026-04-02] ingest | Article Title→grep "^## \[" log.md | tail -5pour afficher les 5 dernières entrées
- Exemple :
- Si chaque entrée suit un préfixe cohérent, elle peut être parsée avec des outils Unix
Outils CLI optionnels
- Quand le wiki grandit, on peut créer de petits outils pour permettre au LLM de fonctionner plus efficacement
- qmd : moteur de recherche local pour fichiers Markdown — recherche hybride BM25/vecteur et reranking par LLM, le tout en local sur l’appareil
- Prend en charge une CLI (sur laquelle le LLM peut faire un shell out) et un serveur MCP (que le LLM peut utiliser comme outil natif)
- Pour un petit volume, le fichier d’index suffit ; selon les besoins, on peut aussi faire écrire par le LLM un simple script de recherche
Conseils et usage des outils
- Obsidian Web Clipper : extension navigateur qui convertit des articles web en Markdown — utile pour ajouter rapidement des sources à la collection brute
- Stockage local des images : dans Obsidian Settings → Files and links, on peut définir le dossier des pièces jointes, puis enregistrer des images sur disque local via un raccourci
- Le LLM ne peut pas lire d’un seul coup un Markdown contenant des images inline ; il lit donc d’abord le texte puis examine les images séparément
- Vue graphe d’Obsidian : idéale pour comprendre la forme générale du wiki — relations, pages hub, pages orphelines
- Marp : format de slide deck basé sur Markdown — disponible via plugin Obsidian, permet de générer directement des présentations à partir du contenu du wiki
- Dataview : plugin Obsidian qui exécute des requêtes sur le frontmatter des pages — si le LLM ajoute du frontmatter YAML (tags, dates, nombre de sources), il devient possible de générer des tableaux et listes dynamiques
- Le wiki est un dépôt git de fichiers Markdown — historique des versions, branching et collaboration inclus gratuitement
Pourquoi ça fonctionne
- Le principal obstacle à la maintenance d’une base de connaissances n’est ni la lecture ni la réflexion, mais la tenue à jour (bookkeeping) : actualiser les références croisées, mettre à jour les résumés, signaler les contradictions, maintenir la cohérence sur des dizaines de pages
- Si les gens abandonnent leurs wikis, c’est parce que la charge de maintenance augmente plus vite que la valeur produite
- Le LLM ne s’ennuie pas, n’oublie pas de mettre à jour les références croisées et peut traiter 15 fichiers à la fois → le coût de maintenance tend presque vers zéro
- L’idée est intellectuellement liée au Memex (1945) de Vannevar Bush : un dépôt de connaissances personnel, activement organisé, où les liens entre documents ont autant de valeur que les documents eux-mêmes
- Le LLM prend en charge la question que Bush n’avait pas résolue : « qui assure la maintenance ? »
Nature de ce document
- Ce document est volontairement abstrait — l’objectif est de transmettre l’idée elle-même, pas une implémentation particulière
- Les détails comme la structure des répertoires, les conventions du schéma, les formats de page ou les outils varient selon le domaine, les préférences et le LLM
- Tous les composants sont optionnels et modulaires — on utilise ce dont on a besoin, et on ignore le reste
- Il est recommandé de le partager avec un agent LLM puis de concrétiser ensemble une version adaptée à ses propres besoins
Aucun commentaire pour le moment.