22 points par GN⁺ 2025-11-17 | 5 commentaires | Partager sur WhatsApp
  • La suite de produits Grafana abandonne ou remplace fréquemment ses composants majeurs à un rythme soutenu, ce qui crée une structure difficile à exploiter sur le long terme
  • À chaque adoption d’une nouvelle solution, les méthodes de configuration, le DSL, les chart Helm et les Operator changent à répétition, rendant la maintenance stable difficile
  • La compatibilité avec l’écosystème Prometheus Operator et les CRD n’est pas complète : ServiceMonitor et PodMonitor fonctionnent, mais des fonctions essentielles comme AlertmanagerConfig restent non prises en charge
  • Mimir 3.0 ajoute de manière imposée une dépendance à Apache Kafka, ce qui augmente fortement la complexité du cluster et la charge d’exploitation
  • Dans Grafana Cloud ainsi que dans l’ensemble de la gamme Mimir, Loki et Grafana, l’emplacement des paramètres et les endpoints changent facilement, ce qui reproduit un schéma où il est difficile de construire une plateforme durable

Changements structurels fréquents dans la suite Grafana

  • Des fonctions clés comme Grafana Agent, Flow Mode ou OnCall sont abandonnées ou remplacées en 1 à 3 ans, et ce scénario se répète
    • L’interface Grafana basée sur Angular a été migrée vers React, ce qui a cassé une part importante des tableaux de bord existants
    • Certains chart Helm ne sont désormais plus maintenus

Une complexité accrue avec l’adoption d’Alloy

  • Grafana Alloy, présenté comme une solution tout-en-un, a remplacé l’Agent existant, mais a connu des problèmes de stabilité à ses débuts
    • Il utilise son propre DSL (proche de HCL), rompant avec le flux de travail précédent basé sur YAML
    • L’ajout d’un Alloy Operator complexifie encore davantage l’ensemble

Une compatibilité incomplète avec l’écosystème Prometheus Operator

  • Les standards de monitoring K8s que sont ServiceMonitor et PodMonitor sont pris en charge, mais
    • PrometheusRules nécessite une configuration supplémentaire
    • AlertmanagerConfig n’est pas pris en charge
    • Mimir utilise son propre Alertmanager, ce qui entraîne des écarts de version et des incompatibilités de détail

L’introduction d’une dépendance à Kafka dans Mimir 3.0

  • L’objectif était d’offrir une scalabilité supérieure à l’existant, mais
    • Kafka devient un composant obligatoire au cœur de l’architecture, ce qui fait fortement monter la difficulté opérationnelle
    • On passe d’une installation Helm unique à l’orchestration de multiples composants, avec une complexité qui augmente de façon exponentielle

Un écosystème difficile à utiliser de façon stable

  • L’ingestion endpoint de Grafana Cloud est devenue plus difficile à localiser avec l’introduction d’un nouveau système d’administration
  • Le rythme rapide de mise à niveau et d’abandon des composants clés ne convient pas aux organisations qui recherchent un « monitoring ennuyeux mais stable »
  • Plus que la technologie elle-même, la manière de gérer les produits et la vitesse du changement constituent le principal facteur qui affaiblit la confiance

5 commentaires

 
ifmkl 2025-11-18

Le tableau de bord fourni par défaut dans influxdb est aussi assez utilisable pour des besoins simples.

 
dongho42 2025-11-18

Je comprends les critiques sur Grafana, mais y aurait-il d’autres solutions recommandables qui prennent en charge autant de sources de données que Grafana ?

 
cysl0 2025-11-18

Il n’y a pas vraiment d’alternative, malheureusement.

 
savvykang 2025-11-18

On dirait qu’il y avait aussi chez Grafana pas mal de gens qui voulaient une promotion ou embellir leur CV.

 
GN⁺ 2025-11-17
Avis Hacker News
  • Pour les mêmes raisons que l’auteur, j’envisage sérieusement de laisser complètement tomber Grafana
    Devoir refaire les dashboards chaque année, reconfigurer les alertes et suivre les nouvelles fonctionnalités, c’est épuisant
    J’aimerais simplement être averti quand le service tombe, et pouvoir garder la même définition de dashboard pendant 10 ans tant que les sources de données ou les métriques ne changent pas
    Avant, il n’y avait que 4 ou 5 liens importants dans la barre latérale, alors que maintenant il y a trop de sous-menus dans les menus, au point qu’il devient difficile de trouver les fonctions de base (dashboards, alertes)
    Devoir réapprendre l’interface à chaque fois pour une UI qu’on ne regarde qu’une fois par mois est terriblement inefficace

  • Quand la durée de vie des services n’est que de 2 à 3 ans, empiler plusieurs produits donne au final l’impression de ne faire qu’agrandir une montagne de dette technique
    La réalité où il faut remplacer quelque chose d’important chaque trimestre est pénible

  • Mimir est un système conçu pour traiter des métriques à une toute autre échelle
    À ce niveau, Kafka est réellement nécessaire
    Mais la plupart des utilisateurs n’ont pas besoin d’une telle scalabilité
    Si vous ne faites pas tourner Mimir sur un cluster Kubernetes dédié, c’est une architecture excessive
    Utiliser simplement Prometheus est plus réaliste

    • Je recommande Victoria Metrics
      Même en mode instance unique, ça fonctionne étonnamment bien, et la montée en charge est très facile
      Je l’ai utilisé dans plusieurs organisations et projets personnels, et j’en ai toujours été satisfait
    • Je trouve amusante l’affirmation selon laquelle « il n’existe pas d’open source avec une scalabilité équivalente »
      Pourtant, Amazon Managed Prometheus d’AWS est basé sur Cortex, et OpenObserve tourne déjà à l’échelle du pétaoctet
    • Je me demande quelle solution vous préférez pour superviser de petites applications
      L’idéal serait quelque chose de simple à déployer en binaire unique, compatible avec OpenTelemetry, et qui permette plus tard de migrer vers un autre fournisseur OTEL
  • Si on construisait une nouvelle solution sur une base OTEL, je me demande quelle alternative à Prometheus/Grafana serait la plus prometteuse

    • Nous aussi avons commencé avec kube-prometheus-stack, mais nous n’aimions pas PromQL
      Il fallait en plus davantage de composants complexes pour gérer les logs et les traces
      C’est comme ça que nous avons découvert GreptimeDB, qui permet une gestion unifiée des métriques, logs et traces
      La collecte se fait avec OpenTelemetry et la visualisation avec Grafana
      Le fait de pouvoir créer des dashboards en SQL correspond bien aux compétences de l’équipe
      En tant qu’ingénieur plateforme, cette simplicité structurelle me satisfait
    • Je recommande OpenObserve
      Il a été conçu pour résoudre la complexité de Grafana et d’Elastic, et peut tout gérer en conteneur unique : logs, métriques, traces, dashboards et alertes
      (l’auteur du commentaire est mainteneur d’OpenObserve)
    • Dans mon entreprise, nous sommes récemment en train de migrer de Grafana vers SigNoz
      C’est open source, activement développé, et la communication de l’équipe est bonne
    • SigNoz est un projet open source OpenTelemetry-native
      Beaucoup d’utilisateurs migrent pour éviter la complexité de Grafana, qui oblige à manipuler directement plusieurs backends
      (l’auteur du commentaire est mainteneur de SigNoz)
  • Je ne comprends pas pourquoi les développeurs changent leur setup chaque semaine pour courir après les dernières technos
    J’utilise le duo Grafana + Prometheus depuis 2017, et ça fonctionne toujours très bien
    Je ne fais les mises à jour qu’une fois tous les 1 à 2 ans, uniquement vers des versions LTS
    Les dashboards sont toujours parfaits, sans aucun problème
    Pour la plupart des gens, cette combinaison ennuyeuse mais stable est la meilleure option

    • Je me demande comment vous avez géré l’abandon du support d’Angular
      J’aimerais savoir si vous utilisez simplement encore une ancienne version
  • Existe-t-il un constructeur de dashboards open source capable de remplacer Grafana ? Mon entreprise aussi utilise largement Grafana

    • Perses semble être l’alternative la plus prometteuse
      Sinon, on peut utiliser les templates de console Prometheus ou les dashboards intégrés de VictoriaMetrics, mais les fonctionnalités sont bien plus limitées
    • Les griefs de l’auteur semblent viser moins Grafana lui-même que les autres produits de cette entreprise
      Les dashboards Grafana eux-mêmes restent assez agréables avec une combinaison VictoriaMetrics + ClickHouse
    • Autrefois, il existait plusieurs alternatives FOSS avant Grafana, mais la plupart ont disparu
      Je me souviens vaguement de noms comme RRD ou Nagios
    • OpenSearch Dashboards est aussi une alternative, mais pour la visualisation pure, Grafana reste meilleur
    • Nous avons complètement remplacé la stack Loki par une combinaison Graylog + ElasticSearch
  • Les changements permanents de Grafana ont fini par me rendre blasé
    À chaque major release, les dashboards cassent ou l’UI change, mais on finit par s’y habituer
    Le vrai problème, c’est le lock-in PromQL de Prometheus
    Si on renomme les métriques, il faut modifier toutes les règles, alertes et dashboards
    PromQL ne renvoie presque jamais d’erreur en dehors des erreurs de syntaxe, donc il faut valider avec des outils comme pint

    • Le problème de PromQL relève davantage de Prometheus que de Grafana
  • Pour un déploiement sur serveur unique, j’utilise souvent Prometheus Pushgateway + Grafana avec un template docker-compose
    C’est simple et ça fonctionne bien, mais dès que le volume de métriques augmente, la complexité explose
    Si Prometheus avait conservé un format de transport plus efficace, ce problème serait moins sévère
    Avec un format binaire de métriques compact au lieu du format texte, il pourrait probablement gérer sans difficulté des millions de labels

  • SigNoz est un bon choix et le projet est activement développé

    • Je suis d’accord pour SigNoz
      Avant, je dépensais beaucoup pour des plateformes cloud d’observabilité, mais maintenant j’utilise SigNoz auto-hébergé sur une machine Hetzner pour 10 $ par mois
  • Prometheus et Grafana visaient chacun une solution full-stack, puis OTEL est arrivé et a complexifié le paysage

    • Je n’ai toujours pas complètement compris comment OTEL s’insère dans la stack de supervision open source
      OTEL est un protocole pour les métriques, traces et logs, mais il n’existe pas de base de données unique qui prenne tout cela en charge
      La plupart des gens combinent Prometheus (métriques) + OpenSearch (logs)
      Au final, OTEL impose surtout de remplacer et reconfigurer les collecteurs