LLM-Wiki - Construire un dépôt de connaissances personnel avec des LLM

(gist.github.com/karpathy)

168 points par GN⁺ 27 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

Andrej Karpathy a récemment expliqué qu’il dépensait désormais plus de tokens pour construire un dépôt de connaissances personnel que pour coder, et a publié un fichier guide d’idées pour générer ce wiki basé sur des LLM
Il suffit de transmettre ce fichier à un agent, qui génère ensuite le wiki de lui-même et en guide l’usage
Au lieu d’un modèle RAG qui réextrait l’information depuis les sources à chaque requête, le système repose sur un wiki persistant où le LLM rédige et maintient directement le wiki, ce qui permet une accumulation progressive des connaissances
Le wiki reste ouvert dans des outils comme Obsidian, tandis que le LLM édite et met à jour les fichiers Markdown en temps réel ; l’utilisateur se concentre sur le sourcing et les questions
Lorsqu’une nouvelle source est ajoutée, le LLM la lit puis l’intègre au wiki existant avec des références croisées ; le traitement d’une seule source peut mettre à jour 10 à 15 pages du wiki
Applicable à tous les domaines où les connaissances s’accumulent dans le temps : santé et objectifs personnels, recherche, notes de lecture, wiki interne d’équipe, etc.
En ramenant à presque zéro le coût de tenue à jour qui constituait le principal frein à la maintenance d’un wiki, le LLM résout un problème pour lequel beaucoup finissaient par abandonner

Idée clé

La plupart des usages documentaires des LLM reposent sur le RAG (Retrieval-Augmented Generation) : on téléverse une collection de fichiers, puis le LLM recherche les extraits pertinents au moment de la requête pour générer une réponse
- NotebookLM, le téléversement de fichiers dans ChatGPT, et la plupart des systèmes RAG fonctionnent ainsi
- Les connaissances sont réextraites à chaque fois, sans accumulation de savoir
L’approche de LLM-Wiki est différente : au lieu que le LLM cherche directement dans les sources, il construit et maintient progressivement un wiki persistant
- Lorsqu’une nouvelle source est ajoutée, le LLM la lit, en extrait les informations clés et les intègre au wiki existant
- Mise à jour des pages d’entités, révision des résumés thématiques, signalement des contradictions avec les affirmations existantes, renforcement de la synthèse
Le wiki devient un artefact persistant à accumulation composée : les références croisées sont déjà en place, les contradictions déjà signalées, la synthèse déjà intégrée
Exemple d’usage concret : un agent LLM ouvert d’un côté, Obsidian de l’autre, avec visualisation en temps réel des modifications apportées par le LLM
- Obsidian = IDE, LLM = programmeur, wiki = base de code

Domaines d’application

Personnel : suivi des objectifs, de la santé, de la psychologie, du développement personnel — rassembler journaux, articles et notes de podcasts pour construire un historique structuré de soi
Recherche : construire sur plusieurs semaines ou mois un wiki complet portant une thèse évolutive, à partir de lectures d’articles, de papiers et de rapports
Lecture : organiser chapitre par chapitre avec des pages pour les personnages, les thèmes et les arcs narratifs — un lecteur individuel peut créer des milliers de pages interconnectées, à la manière de Tolkien Gateway
Business / équipe : constituer un wiki interne maintenu par LLM à partir de fils Slack, transcriptions de réunions, documents projet et appels clients
Aussi applicable à l’analyse concurrentielle, la due diligence, la planification de voyage, les notes de cours, l’exploration approfondie de loisirs et à tout domaine où les connaissances s’accumulent

Architecture (3 couches)

Sources brutes (Raw sources) : collection de documents source sélectionnés — articles, papiers, images, fichiers de données
- Immuables : le LLM les lit mais ne les modifie pas
- Cette couche constitue la source de vérité (source of truth)
Le wiki (The wiki) : répertoire de fichiers Markdown générés par le LLM — résumés, pages d’entités, pages de concepts, comparaisons, aperçus, synthèses
- Le LLM contrôle entièrement cette couche : création de pages, mise à jour lors de l’ajout de sources, maintenance des références croisées
- L’utilisateur lit, le LLM écrit
Le schéma (The schema) : document de configuration qui indique au LLM la structure du wiki, les conventions et le workflow (CLAUDE.md pour Claude Code, AGENTS.md pour Codex)
- Fichier de configuration clé qui transforme le LLM, d’un simple chatbot, en gestionnaire de wiki systématique
- Il évolue avec le temps, conjointement entre l’utilisateur et le LLM

Opérations principales

Ingest : ajouter une nouvelle source à la collection brute et demander au LLM de la traiter
- Le LLM lit la source → discute du contenu principal → rédige une page de résumé dans le wiki → met à jour l’index → met à jour les pages d’entités et de concepts liées → ajoute une entrée au journal
- Une seule source peut affecter 10 à 15 pages du wiki
- On peut traiter les sources une par une avec supervision, ou réduire l’intervention humaine pour fonctionner par lots
Query : poser une question au wiki ; le LLM trouve les pages pertinentes et synthétise une réponse avec citations
- La réponse peut prendre des formes variées : page Markdown, tableau comparatif, slide deck (Marp), graphique (matplotlib), canvas, etc.
- Une bonne réponse peut être réenregistrée comme nouvelle page du wiki — l’exploration elle-même enrichit la base de connaissances
Lint : demander périodiquement au LLM de vérifier l’état du wiki
- Points de contrôle : contradictions entre pages, affirmations obsolètes remplacées par des sources plus récentes, pages orphelines sans liens entrants, concepts importants sans page dédiée, références croisées manquantes, lacunes de données pouvant être comblées par recherche web

Indexation et journalisation

index.md : fichier centré sur le contenu — catalogue toutes les pages du wiki avec liens, résumé d’une ligne et métadonnées
- Pour répondre à une requête, le LLM lit d’abord l’index puis explore les pages pertinentes
- Fonctionne bien à l’échelle de ~100 sources et plusieurs centaines de pages sans infrastructure RAG basée sur des embeddings
log.md : enregistrement chronologique — consigne dans l’ordre les traitements d’ingest, les requêtes et les passages de lint
- Si chaque entrée suit un préfixe cohérent, elle peut être parsée avec des outils Unix
  - Exemple : ## [2026-04-02] ingest | Article Title → grep "^## \[" log.md | tail -5 pour afficher les 5 dernières entrées

Outils CLI optionnels

Quand le wiki grandit, on peut créer de petits outils pour permettre au LLM de fonctionner plus efficacement
qmd : moteur de recherche local pour fichiers Markdown — recherche hybride BM25/vecteur et reranking par LLM, le tout en local sur l’appareil
- Prend en charge une CLI (sur laquelle le LLM peut faire un shell out) et un serveur MCP (que le LLM peut utiliser comme outil natif)
Pour un petit volume, le fichier d’index suffit ; selon les besoins, on peut aussi faire écrire par le LLM un simple script de recherche

Conseils et usage des outils

Obsidian Web Clipper : extension navigateur qui convertit des articles web en Markdown — utile pour ajouter rapidement des sources à la collection brute
Stockage local des images : dans Obsidian Settings → Files and links, on peut définir le dossier des pièces jointes, puis enregistrer des images sur disque local via un raccourci
- Le LLM ne peut pas lire d’un seul coup un Markdown contenant des images inline ; il lit donc d’abord le texte puis examine les images séparément
Vue graphe d’Obsidian : idéale pour comprendre la forme générale du wiki — relations, pages hub, pages orphelines
Marp : format de slide deck basé sur Markdown — disponible via plugin Obsidian, permet de générer directement des présentations à partir du contenu du wiki
Dataview : plugin Obsidian qui exécute des requêtes sur le frontmatter des pages — si le LLM ajoute du frontmatter YAML (tags, dates, nombre de sources), il devient possible de générer des tableaux et listes dynamiques
Le wiki est un dépôt git de fichiers Markdown — historique des versions, branching et collaboration inclus gratuitement

Pourquoi ça fonctionne

Le principal obstacle à la maintenance d’une base de connaissances n’est ni la lecture ni la réflexion, mais la tenue à jour (bookkeeping) : actualiser les références croisées, mettre à jour les résumés, signaler les contradictions, maintenir la cohérence sur des dizaines de pages
Si les gens abandonnent leurs wikis, c’est parce que la charge de maintenance augmente plus vite que la valeur produite
Le LLM ne s’ennuie pas, n’oublie pas de mettre à jour les références croisées et peut traiter 15 fichiers à la fois → le coût de maintenance tend presque vers zéro
L’idée est intellectuellement liée au Memex (1945) de Vannevar Bush : un dépôt de connaissances personnel, activement organisé, où les liens entre documents ont autant de valeur que les documents eux-mêmes
- Le LLM prend en charge la question que Bush n’avait pas résolue : « qui assure la maintenance ? »

Nature de ce document

Ce document est volontairement abstrait — l’objectif est de transmettre l’idée elle-même, pas une implémentation particulière
Les détails comme la structure des répertoires, les conventions du schéma, les formats de page ou les outils varient selon le domaine, les préférences et le LLM
Tous les composants sont optionnels et modulaires — on utilise ce dont on a besoin, et on ignore le reste
Il est recommandé de le partager avec un agent LLM puis de concrétiser ensemble une version adaptée à ses propres besoins

LLM-Wiki - Construire un dépôt de connaissances personnel avec des LLM

Idée clé

Domaines d’application

Architecture (3 couches)

Opérations principales

Indexation et journalisation

Outils CLI optionnels

Conseils et usage des outils

Pourquoi ça fonctionne

Nature de ce document

À lire aussi

Aucun commentaire pour le moment.