ggml.ai rejoint Hugging Face pour garantir l’avenir de l’IA locale

(github.com/ggml-org)

1 points par GN⁺ 2026-02-21 | 1 commentaires | Partager sur WhatsApp

Afin d’assurer le développement durable de l’écosystème de l’IA locale, ggml.ai, l’équipe fondatrice de llama.cpp, rejoint Hugging Face
ggml et llama.cpp continueront d’être gérés de manière open source et centrée sur la communauté, l’équipe assurant leur maintenance et leur support à temps plein
Hugging Face prévoit de garantir la pérennité à long terme des projets, tout en se concentrant sur l’amélioration de l’expérience utilisateur et de l’intégration avec transformers
Cette collaboration vise à améliorer l’accessibilité et la facilité de déploiement de l’inférence locale (Local Inference), tout en renforçant la prise en charge de diverses architectures de modèles
Les deux parties partagent une vision de long terme consistant à construire une superintelligence open source accessible au monde entier

Annonce de l’arrivée de ggml.ai chez Hugging Face

ggml.ai, l’équipe fondatrice de llama.cpp, rejoint Hugging Face afin de préserver un avenir réellement ouvert pour l’IA
- L’objectif est d’élargir et de soutenir les communautés ggml et llama.cpp, tout en favorisant la croissance continue de l’IA locale
Les projets de ggml-org resteront, comme aujourd’hui, open source et pilotés par la communauté
L’équipe ggml continuera d’assurer à temps plein la maintenance et la gestion de ggml, llama.cpp et des projets open source associés
Ce nouveau partenariat doit garantir la durabilité à long terme des projets et offrir de nouvelles opportunités aux utilisateurs comme aux contributeurs
Une meilleure intégration avec la bibliothèque transformers de Hugging Face est prévue afin d’améliorer la qualité de la prise en charge des modèles

Contexte et déroulement de la collaboration

Depuis sa création en 2023, ggml.ai soutient le développement et l’adoption de la bibliothèque de machine learning ggml
Au cours des trois dernières années, une petite équipe a fait grandir la communauté open source et a contribué à faire de ggml le standard de l’inférence IA locale efficace
Dans ce processus, Hugging Face a été le partenaire de collaboration le plus solide
- Des ingénieurs de HF ont contribué à des fonctionnalités clés dans ggml et llama.cpp, ajouté la prise en charge multimodale, intégré Inference Endpoints et amélioré la compatibilité avec le format GGUF, entre autres
La coopération entre les deux parties s’est révélée efficace, et comme toute la communauté en a bénéficié, cette arrivée officialise cette collaboration

Évolutions pour les projets open source et la communauté

Le mode de fonctionnement de ggml et llama.cpp ne change pas
- L’équipe reste pleinement engagée dans la maintenance des projets, et la communauté conserve son autonomie dans les décisions techniques et structurelles
Hugging Face apportera des ressources durables pour renforcer le potentiel de croissance des projets
Les projets resteront 100 % open source, et la rapidité de prise en charge de la quantization après la sortie des modèles devrait aussi s’améliorer

Axes techniques

Deux orientations clés ont été définies pour la suite
- Une intégration en un clic avec Hugging Face transformers
  - transformers s’est imposé comme le standard de définition des modèles d’IA, et l’amélioration de la compatibilité entre les deux écosystèmes est essentielle pour élargir la prise en charge des modèles et assurer la qualité
- Amélioration du packaging et de l’expérience utilisateur des logiciels basés sur ggml
  - À mesure que l’inférence locale s’impose comme une alternative à l’inférence cloud, il devient nécessaire de simplifier le déploiement des modèles et leur accessibilité pour les utilisateurs ordinaires
  - L’objectif est de faire de llama.cpp un outil universel et utilisable partout

Vision à long terme

ggml.ai et Hugging Face ont pour objectif commun de construire une superintelligence open source accessible dans le monde entier
Avec la communauté de l’IA locale, ils comptent continuer à développer une pile d’inférence efficace afin d’obtenir les meilleures performances possibles, y compris sur les appareils personnels

Réactions de la communauté

Des membres des communautés Hugging Face et ggml ont laissé de nombreux messages de félicitations et d’enthousiasme
- Réactions positives du type : « une grande avancée pour l’écosystème de l’IA locale » ou « une nouvelle importante pour l’écosystème de l’IA ouverte »
Certains utilisateurs ont demandé des explications plus claires sur l’indépendance du projet et la propriété du code
D’autres ont aussi exprimé des inquiétudes quant aux changements de juridiction liés à une acquisition par une entreprise et à la transparence open source
Dans l’ensemble, la communauté considère cette collaboration comme un socle pour la croissance durable de l’IA locale

1 commentaires

GN⁺ 2026-02-21

Commentaires sur Hacker News

Je pense que HuggingFace est le vrai « Open AI » au sens propre
C’est à mes yeux l’un des rares héros discrets à avoir démocratisé l’IA on-premise
Je me souviens de l’époque où les coûts de trafic étaient élevés, donc je trouve impressionnant qu’ils hébergent gratuitement autant de modèles
J’espère qu’ils ont un modèle économique durable. Cet écosystème serait bien plus pauvre sans eux
Pour faire tourner Kimi ou GLM en interne, il faut toujours du matériel avec un bon rapport qualité-prix, mais au moins la question des poids et du déploiement est déjà résolue
- Il faut aussi compter Unsloth parmi ces héros méconnus
  La documentation est excellente, et ils fournissent rapidement des quants de haute qualité dans les principaux formats. Je trouve que c’est une marque fiable
- J’imagine même pas le volume de trafic que HF doit absorber
  Je télécharge souvent des modèles de plusieurs centaines de Go, et c’est un service énorme pour la communauté de l’IA souveraine
- Si on streame les poids depuis un SSD et qu’on étend le cache KV avec du swap, c’est lent mais ça peut tourner sur presque n’importe quelle machine
  Pour des calculs lancés pendant la nuit, c’est largement utilisable, et plus on ajoute de ressources de calcul, plus ça s’améliore
- Je ne comprends pas pourquoi ils ne prennent pas en charge BitTorrent
  Il existe hf-torrent et hf_transfer, mais ce n’est pas aussi accessible que des liens directement utilisables depuis l’interface web
- Le torrent est pourtant un cas d’usage parfait, donc je me demande toujours pourquoi ce n’est pas utilisé
L’impact de Georgi Gerganov et de llama.cpp sur l’écosystème des modèles locaux est impossible à sous-estimer
En mars 2023, ils ont lancé une révolution en faisant tourner LLaMA sur des laptops grand public
À l’époque, le README disait que l’objectif était de « faire tourner des modèles sur un MacBook avec une quantification 4-bit »
Tout comme Hugging Face a bien entretenu Transformers, j’espère que GGML suivra la même trajectoire
Un article connexe est résumé ici
- Je me demande pourquoi tes commentaires sont toujours épinglés en haut
Ce qui m’étonne, c’est que HuggingFace ait un impact aussi positif dans le monde tout en générant des revenus
Je me demande à quel point leur modèle économique est solide, s’il est durable à long terme, et s’il y a un risque qu’ils finissent par « se vendre » un jour
- Le récent article du FT, « Why AI start-up Hugging Face turned down a $500mn Nvidia deal », est utile à lire
  Lien vers l’article
- Le modèle économique est en gros similaire à celui de GitHub
  Ils développent la communauté gratuitement, puis vendent une version privée aux entreprises. Ils sont déjà rentables
- Ils ont aussi de l’hébergement payant (enterprise) et des services de conseil
  Je pense qu’ils ont des bases assez solides
- J’ai du mal à croire à l’idée qu’« ils ne seront jamais vendus »
  C’est un peu ironique d’avoir des investisseurs comme AMD, Nvidia, Intel, IBM ou Qualcomm censés se battre pour l’autonomie des utilisateurs
- J’avais utilisé HuggingFace autrefois pour un tutoriel, et on m’avait demandé ma carte à l’inscription, puis j’ai reçu une facture un mois plus tard
  Comme je ne savais pas à quel service cela correspondait, j’ai annulé mon compte. Ce processus de facturation opaque m’a déplu
HuggingFace est le GOAT discret du secteur de l’IA
La communauté et la plateforme sont excellentes
- C’est impressionnant d’avoir créé une plateforme ouverte sans pratiques commerciales opaques, tout en générant des revenus
J’espère que l’affirmation « la communauté fonctionnera de manière autonome et restera 100 % open source » est vraie
Mais au final, il est probable que les intérêts commerciaux l’emportent
Llama.cpp est devenu le standard de fait pour l’inférence locale, et de nombreux projets en dépendent
Si une entreprise donnée le contrôle, elle contrôle alors l’ensemble de l’écosystème local des LLM
Même si Hugging Face paraît bien aujourd’hui, Google aussi donnait cette impression autrefois
Pour éviter l’effet de verrouillage (lock-in), il faudrait soit une gouvernance par une organisation à but non lucratif indépendante, soit des projets concurrents
- Llama.cpp est open source, donc n’importe qui peut le forker
  Le « contrôle » se limite à aider au développement de certaines fonctionnalités
Je suis vraiment reconnaissant envers l’équipe ggml d’avoir rendu les techniques de quantification accessibles à tous
Leurs efforts ont apporté un vrai changement
Je soutiens ggml/llama.cpp/Georgi sur GitHub depuis 2023, et je suis heureux de voir qu’ils semblent avoir trouvé un bon foyer
Du coup, je pense arrêter mon soutien
L’union de HuggingFace et de GGML ressemble à une combinaison parfaite
J’ai même l’impression que cela aurait dû arriver plus tôt
Nous sommes en ce moment dans la période creuse de l’IA locale, mais je m’attends à une croissance explosive d’ici 2 à 3 ans
- En réalité, HuggingFace soutenait déjà beaucoup le projet
  Des membres de HF comme @ngxson comptent parmi les principaux contributeurs à llama.cpp
Je cherche un moyen efficace de faire tourner des modèles avec Docker sur un système modeste comme un MacBook M1 8GB
Des modèles comme Cybersecurity-BaronLLM ont l’air très bien, mais au final mon laptop se transforme en radiateur
Est-ce qu’il faut simplement que j’achète du matériel plus puissant ?
- Avec 8 Go, les inférences complexes sont difficiles, mais les petits modèles restent possibles
  Je recommande des modèles comme Whisper, SmolVLM, Phi-3-mini ou Gemma3
  Voir l’exemple home-llm
  Sur Mac, mieux vaut utiliser Ollama ou MLX, et on peut monter une VM avec Docker Desktop ou Colima
  Avec 8 Go, on peut viser 5 à 10 tokens par seconde, contre environ 50 tokens avec 32 Go. Donc le problème, c’est le manque de RAM
- Au final, il faut un système suffisamment puissant
  Il faut soit utiliser de petits modèles ou des modèles quantifiés, soit acheter ou louer du matériel plus robuste
  Tu peux aussi commencer avec LM Studio plutôt que Docker
- Avec 8 Go, on peut quand même faire tourner des modèles 32B avec une quantification très agressive de type 2bit
  Ce n’est pas parfait, mais à mon avis c’est mieux que de n’utiliser que des modèles à peu de paramètres
- Ce genre de question aura de meilleures réponses sur r/LocalLLM
- Même avec 8 Go, on peut faire tourner de très petits modèles gguf sur CPU avec llamafile
  C’est lent et la qualité est faible, mais c’est faisable
Je réfléchis à la manière de m’impliquer concrètement dans le développement IA
Dans mon entreprise, on n’utilise que Copilot, donc j’ai l’impression d’être déconnecté de l’écosystème du développement IA
J’ai un profil full-stack Java/React, et je touche aussi un peu à Python
J’hésite entre faire un LLM from scratch, suivre le Google ML Crash Course ou passer une certification Nvidia
Je cherche des conseils
- Si ton objectif n’est pas clair, le mieux est de construire toi-même un petit projet qui t’intéresse
  Au lieu de commencer directement par les LLM, mieux vaut démarrer modestement dans un domaine qui t’attire, comme le graphisme par exemple
- Je te recommande d’étudier le fine-tuning de modèles ou la distillation des connaissances (distillation)
  Les guides gratuits sur Colab de Unsloth sont très bien faits

ggml.ai rejoint Hugging Face pour garantir l’avenir de l’IA locale

Annonce de l’arrivée de ggml.ai chez Hugging Face

Contexte et déroulement de la collaboration

Évolutions pour les projets open source et la communauté

Axes techniques

Vision à long terme

Réactions de la communauté

À lire aussi

1 commentaires

Commentaires sur Hacker News