6 points par GN⁺ 2025-07-21 | 1 commentaires | Partager sur WhatsApp
  • Un récent article de MIT Technology Review présente l’idée de comparer les LLM locaux à une sauvegarde hors ligne de Wikipédia
  • Une comparaison directe est faite entre la taille des principaux fichiers de modèles LLM de la bibliothèque Ollama et celle des bundles Wikipédia hors ligne proposés par Kiwix
  • Les fichiers LLM et les données de Wikipédia ont des objectifs, des forces et des faiblesses différents, ce qui rend une comparaison simple difficile, mais des écarts intéressants apparaissent en termes de taille
  • Certains LLM (modèles de 1 à 4 Go) sont plus volumineux qu’une version simple de Wikipédia en anglais (environ 1 Go), tandis que l’intégralité de Wikipédia (57 Go) est plus grande que de gros LLM (20 à 32 Go)
  • Au-delà de la taille des fichiers, il faut tenir compte d’aspects concrets comme la mémoire et les besoins CPU, et le choix peut varier selon l’usage réel

Comparaison entre les LLM locaux et Wikipédia hors ligne

Introduction et origine de la comparaison

  • MIT Technology Review a récemment présenté un article intitulé "How to run an LLM on your laptop"
  • L’article souligne qu’en exécutant un LLM en local, il devient possible d’exploiter des connaissances même dans un environnement hors ligne
  • La métaphore de Simon Willison — « un LLM hors ligne ressemble à une version résumée et incomplète de Wikipédia, mais en situation d’apocalypse, avoir juste une clé USB pourrait aider à redémarrer la société » — est particulièrement marquante

Comparaison de la taille des modèles et des données

  • Plusieurs modèles LLM de la bibliothèque Ollama sont comparés à la taille des fichiers des bundles Wikipédia hors ligne fournis par Kiwix
  • Pour cette comparaison, l’analyse se limite à des modèles pouvant tourner sur du matériel grand public courant, ainsi qu’à des données Wikipédia sans images
  • Les principaux résultats sont les suivants :
    • Les plus petites versions résumées
      • Best of Wikipedia (top 50 000, résumé) : 356.9MB
      • Simple English Wikipedia (résumé) : 417.5MB
    • Modèles LLM représentatifs (petits)
      • Qwen 3 0.6B : 523MB
      • Deepseek-R1 1.5B : 1.1GB
      • Llama 3.2 1B : 1.3GB
    • Modèles LLM représentatifs (moyens à grands)
      • Deepseek-R1 8B / Qwen 3 8B : 5.2GB
      • Gemma3n e4B : 7.5GB
      • Deepseek-R1 14B : 9GB
      • Qwen 3 14B : 9.3GB
    • Wikipédia dans son intégralité
      • Wikipedia (intégral) : 57.18GB
  • Les 50 000 articles les plus importants de Wikipédia tiennent dans 356.9MB, ce qui est très léger
  • Le plus petit LLM (0.6B, Qwen) fait 523MB, soit plus qu’une simple version résumée de Wikipédia
  • L’intégralité de Wikipédia (57.18GB) est bien plus volumineuse que le plus gros LLM (20GB)

Limites de la comparaison et points à considérer

  • Une comparaison directe est difficile : une encyclopédie (des données) et un LLM (un modèle génératif) diffèrent fondamentalement par leur objectif et leur structure
  • La taille du fichier n’est pas le seul critère important : au-delà de sa taille, un LLM demande aussi beaucoup de mémoire et de ressources CPU à l’exécution. Wikipédia hors ligne est plus facile à utiliser sur des appareils modestes
  • Utilité selon l’usage réel : on peut par exemple ne télécharger que le domaine de la chimie, ou utiliser un LLM optimisé pour un matériel donné
  • Subjectivité des critères de sélection : le choix des éléments retenus pour la comparaison reste subjectif

Conclusion et enseignements

  • Les 50 000 articles les plus importants de Wikipédia et le modèle Llama 3.2 3B se situent à peu près au même niveau en taille de fichier
  • Les plus petits bundles Wikipédia sont même plus petits que le plus petit LLM, tandis que le fichier Wikipédia complet est plus grand que le plus gros LLM
  • Dans un environnement disposant d’un espace de stockage suffisant, il peut être pertinent de télécharger et utiliser à la fois un LLM et les données de Wikipédia

1 commentaires

 
GN⁺ 2025-07-21
Avis Hacker News
  • La force des LLM ne réside pas simplement dans le stockage ou la recherche de connaissances, mais dans la compréhension : ce ne sont pas juste des données comme Wikipédia, ils peuvent comprendre des questions ambiguës ou imprécises, expliquer au niveau de l’utilisateur et faire des liens entre plusieurs domaines. Dans une situation où il faudrait redémarrer la société, ce type de compréhension interactive pourrait avoir plus de valeur. Ce ne serait pas seulement un instantané du savoir, mais un outil permettant aux gens de l’utiliser et d’apprendre.
    • L’idée d’un ordinateur peu fiable vénéré comme un dieu par une société pré-numérique rappelle un épisode de Star Trek.
    • Je ne sais pas si les LLM sont « plus » précieux, mais ils sont clairement utiles. Je n’aime pas beaucoup la manière dont l’IA est utilisée aujourd’hui ; au fond, cela ressemble à de l’autocomplétion améliorée. Cela dit, comme moteur de recherche, ça fonctionne remarquablement bien. Quand on pose une question courte à Copilot, on obtient souvent une réponse correcte. En revanche, sur des questions techniques très pointues, il dit souvent n’importe quoi. Il faut toujours rester vigilant. J’ai déjà demandé la création d’un fichier de dépôt CentOS : c’était presque parfait dans l’ensemble, sauf que gpgkey pointait vers http, ce qui ruinait la sécurité.
    • Idéalement, il faudrait lire directement les sources d’information avec un regard critique plutôt que de se reposer sur les résumés d’autrui. Tout le monde l’apprend à l’école et tout le monde est d’accord en principe, mais peu de gens le font réellement. Après les études, on a tendance à ne faire confiance qu’à des sources tertiaires. J’ai pu utiliser un LLM pour trouver les courants historiographiques récents sur un sujet ainsi que des références utiles. À l’inverse, j’ai souvent vu des éditeurs de Wikipédia devenir hostiles quand on leur disait que Wikipédia était inexact, et j’ai souvent constaté qu’on pouvait être induit en erreur si l’on ne vérifiait pas les références.
    • Cela suppose qu’il reste des ordinateurs ou des smartphones. Imprimer et conserver Wikipédia ou quelques livres pourrait aussi constituer une sauvegarde plus sûre. Mais si la société devait vraiment redémarrer, il pourrait aussi être pertinent de repartir complètement autrement.
    • Je pense que la meilleure solution est une combinaison de Wikipédia hors ligne, d’autres sources d’information et d’un LLM local. Ce serait encore mieux si le LLM restait concis et fournissait des liens pertinents. Les LLM avec fonction de recherche donnent des explications trop verbeuses ; mieux vaudrait davantage de liens permettant d’aller directement vers l’information voulue.
  • « Redémarrer la société avec une seule clé USB » était juste une remarque lancée pendant une interview, et je ne pensais pas que cela finirait dans l’article lien vers l’article. Plusieurs personnes ont dit qu’il était raisonnable de mettre Wikipédia sur une clé USB, et je suis d’accord. Les dumps Wikipédia sont en MySQL ; j’ai l’impression qu’il serait plus pratique de les convertir en SQLite puis d’utiliser FTS. On trouve facilement des clés USB de plus de 1 To, donc l’espace de stockage n’est pratiquement plus un problème.
    • Quelqu’un finira probablement par lancer une entreprise qui vendra des clés USB préchargées avec ce type de connaissances. Avec en plus un boîtier de protection contre les impulsions électromagnétiques, cela pourrait être d’une grande aide en cas de catastrophe réelle. À mon avis, ce qui a la plus forte valeur de conservation, ce sont les informations sur les risques de catastrophe à grande échelle. À cause du droit d’auteur, on ne pourrait pas y mettre des livres comme Global Catastrophic Risks, mais on pourrait sans doute crawler des pages web liées au sujet.
    • Cela fait plus de dix ans que je me promène avec un dump local de Wikipédia sur mon téléphone ou mon PDA (et avec les images depuis cinq ans). Ce n’est pas seulement utile en cas de catastrophe, mais aussi très souvent hors ligne au quotidien. Ces derniers temps, des modèles comme les LLM sont devenus vraiment utiles, donc j’espère qu’il y aura une vraie synergie en combinant un modèle local avec Wikipédia dans une approche RAG.
    • Je recite un ancien commentaire : tous les livres numérisés représenteraient environ 30 To, ou environ 5,5 To compressés, ce qui tient sur trois cartes microSD de 2 To. Pour environ 750 dollars, on peut donc emporter l’ensemble.
    • Pas besoin d’utiliser SQL : il suffit de prendre Kiwix.
    • Le fait que l’article commence sur un ton aussi grandiloquent me dérange un peu. J’ai l’impression que les journalistes présentent toujours les outils de manière trop majestueuse ; ça me met mal à l’aise.
  • Je suis en train de télécharger wikipedia_en_all_maxi_2024-01.zim, avec l’idée d’extraire les pages via libzim pour les relier à un LLM. Le fichier zim stocke les pages en HTML et pèse environ 100 Go. La raison, c’est que je veux faire correspondre une grande liste de jeux stockée sur HDD (uniquement les titres, sans catégories séparées) avec des articles Wikipédia afin de les organiser par genre ou autres informations. Mes essais montrent qu’un LLM (Mistral Small 3.2 quantized) remet étonnamment bien de l’ordre dans ce chaos. On peut aussi le faire tourner rapidement via un script personnalisé avec llama.cpp.
    • En réalité, pour ce genre de travail de liaison jeux-Wiki, une requête Wikidata est bien plus simple. Elle peut même inclure des jeux qui n’existent pas encore sur la Wikipédia anglophone.
    • C’est exactement ce type de retour d’expérience technique qui est la vraie raison pour laquelle je lis HN. C’est rafraîchissant de voir quelqu’un partager avec suffisamment de détails quelque chose qu’il a construit en y réfléchissant vraiment. Je fabrique moi-même un LLM, et c’est la première fois que je vois un cas d’usage aussi utile ; j’ai l’impression que j’ai encore beaucoup à apprendre. Merci pour les bonnes infos.
  • Les dumps de Wikipédia, d’arXiv et de code open source contiennent en grande partie du code exécutable et des informations fiables, tout en étant peu coûteux et faciles à rechercher. Les applications FOSS sont directement utilisables, et Wikipédia sert à introduire ou structurer un sujet. À l’inverse, les LLM, surtout les petits modèles, inventent des résultats, mais ils essaient quand même de répondre à des questions mal formulées et peuvent (parfois) lire puis synthétiser directement de très grandes quantités de matière brute. Dans un contexte de travail hors ligne, j’ai l’impression qu’il vaut mieux exploiter au maximum les bibliothèques existantes. Je vois aussi des cas d’usage concrets pour un LLM comme assistant de programmation. Cela dit, je n’ai pas encore d’expérience pratique avec des modèles locaux, même si, d’après les benchmarks, Qwen3 32B pourrait servir d’aide au code, donc ce sera peut-être exploitable un jour.
  • L’un des avantages moins souvent mentionnés des LLM est leur capacité à mobiliser les connaissances au-delà des langues. La Wikipédia anglophone couvre bien la plupart des sujets, mais ce n’est pas le cas des autres langues. Il arrive aussi que des informations absentes de la Wikipédia anglaise figurent dans d’autres éditions linguistiques. Un LLM peut réunir tout cela en un seul ensemble et le rendre accessible dans plusieurs langues.
  • Les entreprises d’IA ont distillé l’ensemble du web dans des LLM pour fabriquer des ordinateurs intelligents ; alors pourquoi les humains ne peuvent-ils pas créer une nouvelle Wikipédia d’élite encore meilleure, y compris avec les parties sous copyright ? Je me demande pourquoi les gosses n’arrivent pas à faire ce que les boîtes d’IA font.
    • C’est pourtant exactement ce que nous faisions en pratique ; c’est juste que de nos jours, les encyclopédies se vendent mal.
    • Ça s’appelle une bibliothèque.
  • Je voudrais mentionner Wikipedia Monthly, un dump mensuel de Wikipédia : 205 Go au total pour 341 langues, dont 24 Go pour l’anglais seul. Le contenu est converti du balisage MediaWiki en texte propre, ce qui le rend pratique pour une indexation locale ou divers autres usages. J’ai le sentiment que Simple English Wikipedia reste superficielle et pas toujours très exacte. Lien vers le blog Wikipedia Monthly
  • Dans les discussions sur l’utilité des LLM, je trouve dommage que les usages concrets selon les situations soient presque toujours absents. Avant l’arrivée des LLM, la recherche d’information et le machine learning s’appuyaient sur des critères stricts et des jeux d’évaluation. Pourtant, alors même qu’aujourd’hui les LLM sont devenus plus généralistes et capables de résoudre des tâches variées, je trouve étrange qu’il n’existe pas davantage de benchmarks comparant réellement les LLM aux autres méthodes. Il est possible que je passe simplement à côté des tendances de la recherche.
  • Les LLM sont très critiqués pour leurs informations inexactes, mais pour une « base de données de requêtes d’information du Jugement dernier » idéale, je pense que la meilleure configuration serait LLM + archive de fichiers. Étape 1 : le LLM comprend la question humaine, même floue, puis fournit une liste de concepts-clés et de liens, comme des articles Wikipédia associés. Étape 2 : l’utilisateur peut vérifier lui-même les informations fiables directement dans les documents fournis.
    • Même moi, qui suis très pessimiste, je pense que les LLM peuvent bien servir d’outils pour traduire un texte humain en requêtes de recherche. L’idéal serait de les utiliser comme conseiller ou tuteur plutôt que comme intermédiaire. Au final, l’essentiel est que l’utilisateur dépasse leurs limites.
  • Les modèles nommés comme « $1-distill-$2 » (parfois sans « -distill ») sont des modèles $2 entraînés sur les sorties de $1 dans un processus de « distillation des connaissances » ; contrairement à ce que leur nom laisse penser, ce ne sont donc pas réellement $1. Des modèles cités dans l’article comme « Deepseek-R1 1.5B » n’existent pas réellement en tant que tels ; ils relèvent de ce type de dénomination.