1 points par GN⁺ 2026-02-21 | 1 commentaires | Partager sur WhatsApp
  • Afin d’assurer le développement durable de l’écosystème de l’IA locale, ggml.ai, l’équipe fondatrice de llama.cpp, rejoint Hugging Face
  • ggml et llama.cpp continueront d’être gérés de manière open source et centrée sur la communauté, l’équipe assurant leur maintenance et leur support à temps plein
  • Hugging Face prévoit de garantir la pérennité à long terme des projets, tout en se concentrant sur l’amélioration de l’expérience utilisateur et de l’intégration avec transformers
  • Cette collaboration vise à améliorer l’accessibilité et la facilité de déploiement de l’inférence locale (Local Inference), tout en renforçant la prise en charge de diverses architectures de modèles
  • Les deux parties partagent une vision de long terme consistant à construire une superintelligence open source accessible au monde entier

Annonce de l’arrivée de ggml.ai chez Hugging Face

  • ggml.ai, l’équipe fondatrice de llama.cpp, rejoint Hugging Face afin de préserver un avenir réellement ouvert pour l’IA
    • L’objectif est d’élargir et de soutenir les communautés ggml et llama.cpp, tout en favorisant la croissance continue de l’IA locale
  • Les projets de ggml-org resteront, comme aujourd’hui, open source et pilotés par la communauté
  • L’équipe ggml continuera d’assurer à temps plein la maintenance et la gestion de ggml, llama.cpp et des projets open source associés
  • Ce nouveau partenariat doit garantir la durabilité à long terme des projets et offrir de nouvelles opportunités aux utilisateurs comme aux contributeurs
  • Une meilleure intégration avec la bibliothèque transformers de Hugging Face est prévue afin d’améliorer la qualité de la prise en charge des modèles

Contexte et déroulement de la collaboration

  • Depuis sa création en 2023, ggml.ai soutient le développement et l’adoption de la bibliothèque de machine learning ggml
  • Au cours des trois dernières années, une petite équipe a fait grandir la communauté open source et a contribué à faire de ggml le standard de l’inférence IA locale efficace
  • Dans ce processus, Hugging Face a été le partenaire de collaboration le plus solide
    • Des ingénieurs de HF ont contribué à des fonctionnalités clés dans ggml et llama.cpp, ajouté la prise en charge multimodale, intégré Inference Endpoints et amélioré la compatibilité avec le format GGUF, entre autres
  • La coopération entre les deux parties s’est révélée efficace, et comme toute la communauté en a bénéficié, cette arrivée officialise cette collaboration

Évolutions pour les projets open source et la communauté

  • Le mode de fonctionnement de ggml et llama.cpp ne change pas
    • L’équipe reste pleinement engagée dans la maintenance des projets, et la communauté conserve son autonomie dans les décisions techniques et structurelles
  • Hugging Face apportera des ressources durables pour renforcer le potentiel de croissance des projets
  • Les projets resteront 100 % open source, et la rapidité de prise en charge de la quantization après la sortie des modèles devrait aussi s’améliorer

Axes techniques

  • Deux orientations clés ont été définies pour la suite
    • Une intégration en un clic avec Hugging Face transformers
      • transformers s’est imposé comme le standard de définition des modèles d’IA, et l’amélioration de la compatibilité entre les deux écosystèmes est essentielle pour élargir la prise en charge des modèles et assurer la qualité
    • Amélioration du packaging et de l’expérience utilisateur des logiciels basés sur ggml
      • À mesure que l’inférence locale s’impose comme une alternative à l’inférence cloud, il devient nécessaire de simplifier le déploiement des modèles et leur accessibilité pour les utilisateurs ordinaires
      • L’objectif est de faire de llama.cpp un outil universel et utilisable partout

Vision à long terme

  • ggml.ai et Hugging Face ont pour objectif commun de construire une superintelligence open source accessible dans le monde entier
  • Avec la communauté de l’IA locale, ils comptent continuer à développer une pile d’inférence efficace afin d’obtenir les meilleures performances possibles, y compris sur les appareils personnels

Réactions de la communauté

  • Des membres des communautés Hugging Face et ggml ont laissé de nombreux messages de félicitations et d’enthousiasme
    • Réactions positives du type : « une grande avancée pour l’écosystème de l’IA locale » ou « une nouvelle importante pour l’écosystème de l’IA ouverte »
  • Certains utilisateurs ont demandé des explications plus claires sur l’indépendance du projet et la propriété du code
  • D’autres ont aussi exprimé des inquiétudes quant aux changements de juridiction liés à une acquisition par une entreprise et à la transparence open source
  • Dans l’ensemble, la communauté considère cette collaboration comme un socle pour la croissance durable de l’IA locale

1 commentaires

 
GN⁺ 2026-02-21
Commentaires sur Hacker News
  • Je pense que HuggingFace est le vrai « Open AI » au sens propre
    C’est à mes yeux l’un des rares héros discrets à avoir démocratisé l’IA on-premise
    Je me souviens de l’époque où les coûts de trafic étaient élevés, donc je trouve impressionnant qu’ils hébergent gratuitement autant de modèles
    J’espère qu’ils ont un modèle économique durable. Cet écosystème serait bien plus pauvre sans eux
    Pour faire tourner Kimi ou GLM en interne, il faut toujours du matériel avec un bon rapport qualité-prix, mais au moins la question des poids et du déploiement est déjà résolue

    • Il faut aussi compter Unsloth parmi ces héros méconnus
      La documentation est excellente, et ils fournissent rapidement des quants de haute qualité dans les principaux formats. Je trouve que c’est une marque fiable
    • J’imagine même pas le volume de trafic que HF doit absorber
      Je télécharge souvent des modèles de plusieurs centaines de Go, et c’est un service énorme pour la communauté de l’IA souveraine
    • Si on streame les poids depuis un SSD et qu’on étend le cache KV avec du swap, c’est lent mais ça peut tourner sur presque n’importe quelle machine
      Pour des calculs lancés pendant la nuit, c’est largement utilisable, et plus on ajoute de ressources de calcul, plus ça s’améliore
    • Je ne comprends pas pourquoi ils ne prennent pas en charge BitTorrent
      Il existe hf-torrent et hf_transfer, mais ce n’est pas aussi accessible que des liens directement utilisables depuis l’interface web
    • Le torrent est pourtant un cas d’usage parfait, donc je me demande toujours pourquoi ce n’est pas utilisé
  • L’impact de Georgi Gerganov et de llama.cpp sur l’écosystème des modèles locaux est impossible à sous-estimer
    En mars 2023, ils ont lancé une révolution en faisant tourner LLaMA sur des laptops grand public
    À l’époque, le README disait que l’objectif était de « faire tourner des modèles sur un MacBook avec une quantification 4-bit »
    Tout comme Hugging Face a bien entretenu Transformers, j’espère que GGML suivra la même trajectoire
    Un article connexe est résumé ici

    • Je me demande pourquoi tes commentaires sont toujours épinglés en haut
  • Ce qui m’étonne, c’est que HuggingFace ait un impact aussi positif dans le monde tout en générant des revenus
    Je me demande à quel point leur modèle économique est solide, s’il est durable à long terme, et s’il y a un risque qu’ils finissent par « se vendre » un jour

    • Le récent article du FT, « Why AI start-up Hugging Face turned down a $500mn Nvidia deal », est utile à lire
      Lien vers l’article
    • Le modèle économique est en gros similaire à celui de GitHub
      Ils développent la communauté gratuitement, puis vendent une version privée aux entreprises. Ils sont déjà rentables
    • Ils ont aussi de l’hébergement payant (enterprise) et des services de conseil
      Je pense qu’ils ont des bases assez solides
    • J’ai du mal à croire à l’idée qu’« ils ne seront jamais vendus »
      C’est un peu ironique d’avoir des investisseurs comme AMD, Nvidia, Intel, IBM ou Qualcomm censés se battre pour l’autonomie des utilisateurs
    • J’avais utilisé HuggingFace autrefois pour un tutoriel, et on m’avait demandé ma carte à l’inscription, puis j’ai reçu une facture un mois plus tard
      Comme je ne savais pas à quel service cela correspondait, j’ai annulé mon compte. Ce processus de facturation opaque m’a déplu
  • HuggingFace est le GOAT discret du secteur de l’IA
    La communauté et la plateforme sont excellentes

    • C’est impressionnant d’avoir créé une plateforme ouverte sans pratiques commerciales opaques, tout en générant des revenus
  • J’espère que l’affirmation « la communauté fonctionnera de manière autonome et restera 100 % open source » est vraie
    Mais au final, il est probable que les intérêts commerciaux l’emportent
    Llama.cpp est devenu le standard de fait pour l’inférence locale, et de nombreux projets en dépendent
    Si une entreprise donnée le contrôle, elle contrôle alors l’ensemble de l’écosystème local des LLM
    Même si Hugging Face paraît bien aujourd’hui, Google aussi donnait cette impression autrefois
    Pour éviter l’effet de verrouillage (lock-in), il faudrait soit une gouvernance par une organisation à but non lucratif indépendante, soit des projets concurrents

    • Llama.cpp est open source, donc n’importe qui peut le forker
      Le « contrôle » se limite à aider au développement de certaines fonctionnalités
  • Je suis vraiment reconnaissant envers l’équipe ggml d’avoir rendu les techniques de quantification accessibles à tous
    Leurs efforts ont apporté un vrai changement

  • Je soutiens ggml/llama.cpp/Georgi sur GitHub depuis 2023, et je suis heureux de voir qu’ils semblent avoir trouvé un bon foyer
    Du coup, je pense arrêter mon soutien

  • L’union de HuggingFace et de GGML ressemble à une combinaison parfaite
    J’ai même l’impression que cela aurait dû arriver plus tôt
    Nous sommes en ce moment dans la période creuse de l’IA locale, mais je m’attends à une croissance explosive d’ici 2 à 3 ans

    • En réalité, HuggingFace soutenait déjà beaucoup le projet
      Des membres de HF comme @ngxson comptent parmi les principaux contributeurs à llama.cpp
  • Je cherche un moyen efficace de faire tourner des modèles avec Docker sur un système modeste comme un MacBook M1 8GB
    Des modèles comme Cybersecurity-BaronLLM ont l’air très bien, mais au final mon laptop se transforme en radiateur
    Est-ce qu’il faut simplement que j’achète du matériel plus puissant ?

    • Avec 8 Go, les inférences complexes sont difficiles, mais les petits modèles restent possibles
      Je recommande des modèles comme Whisper, SmolVLM, Phi-3-mini ou Gemma3
      Voir l’exemple home-llm
      Sur Mac, mieux vaut utiliser Ollama ou MLX, et on peut monter une VM avec Docker Desktop ou Colima
      Avec 8 Go, on peut viser 5 à 10 tokens par seconde, contre environ 50 tokens avec 32 Go. Donc le problème, c’est le manque de RAM
    • Au final, il faut un système suffisamment puissant
      Il faut soit utiliser de petits modèles ou des modèles quantifiés, soit acheter ou louer du matériel plus robuste
      Tu peux aussi commencer avec LM Studio plutôt que Docker
    • Avec 8 Go, on peut quand même faire tourner des modèles 32B avec une quantification très agressive de type 2bit
      Ce n’est pas parfait, mais à mon avis c’est mieux que de n’utiliser que des modèles à peu de paramètres
    • Ce genre de question aura de meilleures réponses sur r/LocalLLM
    • Même avec 8 Go, on peut faire tourner de très petits modèles gguf sur CPU avec llamafile
      C’est lent et la qualité est faible, mais c’est faisable
  • Je réfléchis à la manière de m’impliquer concrètement dans le développement IA
    Dans mon entreprise, on n’utilise que Copilot, donc j’ai l’impression d’être déconnecté de l’écosystème du développement IA
    J’ai un profil full-stack Java/React, et je touche aussi un peu à Python
    J’hésite entre faire un LLM from scratch, suivre le Google ML Crash Course ou passer une certification Nvidia
    Je cherche des conseils

    • Si ton objectif n’est pas clair, le mieux est de construire toi-même un petit projet qui t’intéresse
      Au lieu de commencer directement par les LLM, mieux vaut démarrer modestement dans un domaine qui t’attire, comme le graphisme par exemple
    • Je te recommande d’étudier le fine-tuning de modèles ou la distillation des connaissances (distillation)
      Les guides gratuits sur Colab de Unsloth sont très bien faits