5 points par GN⁺ 29 일 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Une version preview d’Ollama basée sur le framework Apple MLX a été publiée, avec des gains de performance grâce à l’architecture mémoire unifiée d’Apple Silicon
  • Grâce au GPU Neural Accelerator des puces de la série M5, le TTFT (temps jusqu’au premier token) et la vitesse de génération des tokens progressent tous deux
  • La prise en charge du format NVFP4 réduit les besoins en bande passante mémoire et en stockage tout en préservant la précision des modèles, et permet d’exécuter des modèles optimisés avec NVIDIA Model Optimizer
  • La réutilisation du cache et des politiques de cache intelligentes améliorent l’efficacité mémoire et la rapidité de réponse entre les conversations, tout en augmentant le taux de cache hit pour les prompts partagés
  • À l’avenir, la prise en charge sera étendue avec davantage de modèles et une fonction d’import de modèles personnalisés

Preview d’Ollama basée sur MLX sur Apple Silicon

  • Une nouvelle version preview d’Ollama, basée sur le framework MLX d’Apple, a été publiée
    • Elle permet d’exécuter plus rapidement sur macOS un assistant personnel (OpenClaw) ou des agents de code (Claude Code, OpenCode, Codex, etc.)
    • Elle améliore les performances en exploitant l’architecture mémoire unifiée d’Apple Silicon
  • Améliorations de performances sur Apple Silicon

    • Ollama fonctionne sur le framework de machine learning MLX d’Apple et exploite le GPU Neural Accelerator des puces M5, M5 Pro et M5 Max pour accélérer à la fois le TTFT (temps jusqu’au premier token) et la vitesse de génération des tokens
    • Lors d’un test du 29 mars 2026, le modèle Qwen3.5-35B-A3B d’Alibaba (quantification NVFP4) a été comparé à l’implémentation précédente d’Ollama (Q4_K_M)
    • Ollama version 0.19 a enregistré 1851 token/s en prefill et 134 token/s en décodage en exécution int4
  • Prise en charge de NVFP4

    • Le format NVFP4 de NVIDIA est pris en charge, ce qui permet à la fois de préserver la précision des modèles et de réduire les besoins en bande passante mémoire et en stockage
    • La cohérence des résultats est assurée entre les environnements d’inférence utilisant NVFP4 et les environnements de production
    • Il est possible d’exécuter des modèles optimisés avec le Model Optimizer de NVIDIA
    • D’autres niveaux de précision (precision) seront ajoutés selon la conception et les usages des partenaires de recherche et matériels d’Ollama
  • Améliorations du système de cache

    • La réutilisation du cache réduit l’utilisation mémoire entre les conversations et améliore le taux de cache hit lorsque des prompts système partagés sont utilisés
    • Des checkpoints intelligents ont été introduits pour réduire la charge de traitement des prompts et améliorer la vitesse de réponse
    • Une politique intelligente d’éviction du cache permet de conserver plus longtemps les préfixes (prefix) partagés, même lorsque d’anciennes branches sont supprimées
  • Comment démarrer

    • Télécharger Ollama 0.19
    • Le nouveau modèle Qwen3.5-35B-A3B a été ajusté avec des paramètres d’échantillonnage adaptés aux tâches de code
    • Un Mac avec au moins 32 Go de mémoire unifiée est requis
    • Exemples d’exécution :
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Dialogue avec le modèle: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Feuille de route

    • Prise en charge de davantage de modèles à venir
    • Ajout prévu d’une fonction d’import de modèles personnalisés basée sur les architectures prises en charge
    • Extension continue de la liste des architectures prises en charge
  • Remerciements

    • L’équipe des contributeurs MLX pour le développement du framework d’accélération
    • L’équipe NVIDIA pour la quantification NVFP4, l’optimisation des modèles, la prise en charge de MLX CUDA, l’optimisation d’Ollama et les tests
    • Les équipes GGML et llama.cpp pour la création du framework local et de la communauté
    • L’équipe Alibaba Qwen pour la mise à disposition du modèle open source et sa collaboration

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.