- Afin d’assurer le développement durable de l’écosystème de l’IA locale, ggml.ai, l’équipe fondatrice de
llama.cpp, rejoint Hugging Face
ggml et llama.cpp continueront d’être gérés de manière open source et centrée sur la communauté, l’équipe assurant leur maintenance et leur support à temps plein
- Hugging Face prévoit de garantir la pérennité à long terme des projets, tout en se concentrant sur l’amélioration de l’expérience utilisateur et de l’intégration avec transformers
- Cette collaboration vise à améliorer l’accessibilité et la facilité de déploiement de l’inférence locale (Local Inference), tout en renforçant la prise en charge de diverses architectures de modèles
- Les deux parties partagent une vision de long terme consistant à construire une superintelligence open source accessible au monde entier
Annonce de l’arrivée de ggml.ai chez Hugging Face
- ggml.ai, l’équipe fondatrice de
llama.cpp, rejoint Hugging Face afin de préserver un avenir réellement ouvert pour l’IA
- L’objectif est d’élargir et de soutenir les communautés
ggml et llama.cpp, tout en favorisant la croissance continue de l’IA locale
- Les projets de
ggml-org resteront, comme aujourd’hui, open source et pilotés par la communauté
- L’équipe ggml continuera d’assurer à temps plein la maintenance et la gestion de
ggml, llama.cpp et des projets open source associés
- Ce nouveau partenariat doit garantir la durabilité à long terme des projets et offrir de nouvelles opportunités aux utilisateurs comme aux contributeurs
- Une meilleure intégration avec la bibliothèque
transformers de Hugging Face est prévue afin d’améliorer la qualité de la prise en charge des modèles
Contexte et déroulement de la collaboration
- Depuis sa création en 2023, ggml.ai soutient le développement et l’adoption de la bibliothèque de machine learning
ggml
- Au cours des trois dernières années, une petite équipe a fait grandir la communauté open source et a contribué à faire de
ggml le standard de l’inférence IA locale efficace
- Dans ce processus, Hugging Face a été le partenaire de collaboration le plus solide
- Des ingénieurs de HF ont contribué à des fonctionnalités clés dans
ggml et llama.cpp, ajouté la prise en charge multimodale, intégré Inference Endpoints et amélioré la compatibilité avec le format GGUF, entre autres
- La coopération entre les deux parties s’est révélée efficace, et comme toute la communauté en a bénéficié, cette arrivée officialise cette collaboration
Évolutions pour les projets open source et la communauté
- Le mode de fonctionnement de
ggml et llama.cpp ne change pas
- L’équipe reste pleinement engagée dans la maintenance des projets, et la communauté conserve son autonomie dans les décisions techniques et structurelles
- Hugging Face apportera des ressources durables pour renforcer le potentiel de croissance des projets
- Les projets resteront 100 % open source, et la rapidité de prise en charge de la quantization après la sortie des modèles devrait aussi s’améliorer
Axes techniques
- Deux orientations clés ont été définies pour la suite
- Une intégration en un clic avec Hugging Face transformers
transformers s’est imposé comme le standard de définition des modèles d’IA, et l’amélioration de la compatibilité entre les deux écosystèmes est essentielle pour élargir la prise en charge des modèles et assurer la qualité
- Amélioration du packaging et de l’expérience utilisateur des logiciels basés sur ggml
- À mesure que l’inférence locale s’impose comme une alternative à l’inférence cloud, il devient nécessaire de simplifier le déploiement des modèles et leur accessibilité pour les utilisateurs ordinaires
- L’objectif est de faire de
llama.cpp un outil universel et utilisable partout
Vision à long terme
- ggml.ai et Hugging Face ont pour objectif commun de construire une superintelligence open source accessible dans le monde entier
- Avec la communauté de l’IA locale, ils comptent continuer à développer une pile d’inférence efficace afin d’obtenir les meilleures performances possibles, y compris sur les appareils personnels
Réactions de la communauté
- Des membres des communautés Hugging Face et ggml ont laissé de nombreux messages de félicitations et d’enthousiasme
- Réactions positives du type : « une grande avancée pour l’écosystème de l’IA locale » ou « une nouvelle importante pour l’écosystème de l’IA ouverte »
- Certains utilisateurs ont demandé des explications plus claires sur l’indépendance du projet et la propriété du code
- D’autres ont aussi exprimé des inquiétudes quant aux changements de juridiction liés à une acquisition par une entreprise et à la transparence open source
- Dans l’ensemble, la communauté considère cette collaboration comme un socle pour la croissance durable de l’IA locale
1 commentaires
Commentaires sur Hacker News
Je pense que HuggingFace est le vrai « Open AI » au sens propre
C’est à mes yeux l’un des rares héros discrets à avoir démocratisé l’IA on-premise
Je me souviens de l’époque où les coûts de trafic étaient élevés, donc je trouve impressionnant qu’ils hébergent gratuitement autant de modèles
J’espère qu’ils ont un modèle économique durable. Cet écosystème serait bien plus pauvre sans eux
Pour faire tourner Kimi ou GLM en interne, il faut toujours du matériel avec un bon rapport qualité-prix, mais au moins la question des poids et du déploiement est déjà résolue
La documentation est excellente, et ils fournissent rapidement des quants de haute qualité dans les principaux formats. Je trouve que c’est une marque fiable
Je télécharge souvent des modèles de plusieurs centaines de Go, et c’est un service énorme pour la communauté de l’IA souveraine
Pour des calculs lancés pendant la nuit, c’est largement utilisable, et plus on ajoute de ressources de calcul, plus ça s’améliore
Il existe hf-torrent et hf_transfer, mais ce n’est pas aussi accessible que des liens directement utilisables depuis l’interface web
L’impact de Georgi Gerganov et de llama.cpp sur l’écosystème des modèles locaux est impossible à sous-estimer
En mars 2023, ils ont lancé une révolution en faisant tourner LLaMA sur des laptops grand public
À l’époque, le README disait que l’objectif était de « faire tourner des modèles sur un MacBook avec une quantification 4-bit »
Tout comme Hugging Face a bien entretenu Transformers, j’espère que GGML suivra la même trajectoire
Un article connexe est résumé ici
Ce qui m’étonne, c’est que HuggingFace ait un impact aussi positif dans le monde tout en générant des revenus
Je me demande à quel point leur modèle économique est solide, s’il est durable à long terme, et s’il y a un risque qu’ils finissent par « se vendre » un jour
Lien vers l’article
Ils développent la communauté gratuitement, puis vendent une version privée aux entreprises. Ils sont déjà rentables
Je pense qu’ils ont des bases assez solides
C’est un peu ironique d’avoir des investisseurs comme AMD, Nvidia, Intel, IBM ou Qualcomm censés se battre pour l’autonomie des utilisateurs
Comme je ne savais pas à quel service cela correspondait, j’ai annulé mon compte. Ce processus de facturation opaque m’a déplu
HuggingFace est le GOAT discret du secteur de l’IA
La communauté et la plateforme sont excellentes
J’espère que l’affirmation « la communauté fonctionnera de manière autonome et restera 100 % open source » est vraie
Mais au final, il est probable que les intérêts commerciaux l’emportent
Llama.cpp est devenu le standard de fait pour l’inférence locale, et de nombreux projets en dépendent
Si une entreprise donnée le contrôle, elle contrôle alors l’ensemble de l’écosystème local des LLM
Même si Hugging Face paraît bien aujourd’hui, Google aussi donnait cette impression autrefois
Pour éviter l’effet de verrouillage (lock-in), il faudrait soit une gouvernance par une organisation à but non lucratif indépendante, soit des projets concurrents
Le « contrôle » se limite à aider au développement de certaines fonctionnalités
Je suis vraiment reconnaissant envers l’équipe ggml d’avoir rendu les techniques de quantification accessibles à tous
Leurs efforts ont apporté un vrai changement
Je soutiens ggml/llama.cpp/Georgi sur GitHub depuis 2023, et je suis heureux de voir qu’ils semblent avoir trouvé un bon foyer
Du coup, je pense arrêter mon soutien
L’union de HuggingFace et de GGML ressemble à une combinaison parfaite
J’ai même l’impression que cela aurait dû arriver plus tôt
Nous sommes en ce moment dans la période creuse de l’IA locale, mais je m’attends à une croissance explosive d’ici 2 à 3 ans
Des membres de HF comme @ngxson comptent parmi les principaux contributeurs à llama.cpp
Je cherche un moyen efficace de faire tourner des modèles avec Docker sur un système modeste comme un MacBook M1 8GB
Des modèles comme Cybersecurity-BaronLLM ont l’air très bien, mais au final mon laptop se transforme en radiateur
Est-ce qu’il faut simplement que j’achète du matériel plus puissant ?
Je recommande des modèles comme Whisper, SmolVLM, Phi-3-mini ou Gemma3
Voir l’exemple home-llm
Sur Mac, mieux vaut utiliser Ollama ou MLX, et on peut monter une VM avec Docker Desktop ou Colima
Avec 8 Go, on peut viser 5 à 10 tokens par seconde, contre environ 50 tokens avec 32 Go. Donc le problème, c’est le manque de RAM
Il faut soit utiliser de petits modèles ou des modèles quantifiés, soit acheter ou louer du matériel plus robuste
Tu peux aussi commencer avec LM Studio plutôt que Docker
Ce n’est pas parfait, mais à mon avis c’est mieux que de n’utiliser que des modèles à peu de paramètres
C’est lent et la qualité est faible, mais c’est faisable
Je réfléchis à la manière de m’impliquer concrètement dans le développement IA
Dans mon entreprise, on n’utilise que Copilot, donc j’ai l’impression d’être déconnecté de l’écosystème du développement IA
J’ai un profil full-stack Java/React, et je touche aussi un peu à Python
J’hésite entre faire un LLM from scratch, suivre le Google ML Crash Course ou passer une certification Nvidia
Je cherche des conseils
Au lieu de commencer directement par les LLM, mieux vaut démarrer modestement dans un domaine qui t’attire, comme le graphisme par exemple
Les guides gratuits sur Colab de Unsloth sont très bien faits