2 points par GN⁺ 2024-07-29 | 1 commentaires | Partager sur WhatsApp
  • Utilise des LLM pour classer les alertes entre celles qui nécessitent une action et le bruit
    • Analyse l’historique des alertes et les conversations Slack pour déterminer si une alerte est actionnable
    • Réduit la fatigue liée aux alertes en fournissant des informations contextuelles pour le traitement (insights et ressources complémentaires)
  • Fonctionne via une intégration avec Slack, analyse les schémas d’alerte et fournit un rapport hebdomadaire sur les alertes du canal

Architecture modulaire

  1. Collecte des alertes : Datadog envoie les alertes au serveur FastAPI via des webhooks
  2. Serveur FastAPI : cœur du système, il traite les alertes entrantes, interagit avec Slack et gère le flux de données
  3. Intégration Slack : fournit l’interface utilisateur pour la gestion des alertes et les interactions
  4. Base de données : utilise Postgres et pgvector pour stocker les données d’alerte et les embeddings

Intégrations

Grâce à un modèle de données flexible, plusieurs intégrations peuvent être prises en charge. Actuellement, Opslane prend en charge Datadog

Résumé de GN⁺

  • Opslane est un outil qui réduit la fatigue liée aux alertes et rend l’expérience d’astreinte moins stressante en classant les alertes actionnables
  • Son intégration avec Slack aide à la gestion des alertes et au débogage, tandis que les rapports hebdomadaires analysent la qualité des alertes
  • Disponible en open source, il accueille volontiers les contributions de la communauté et prend en charge l’intégration avec Datadog
  • Parmi les outils aux fonctionnalités similaires, on peut citer PagerDuty et VictorOps.

1 commentaires

 
GN⁺ 2024-07-29
Avis de Hacker News
  • Premier avis : discussion sur un produit qui réduit la fatigue liée aux alertes en classant les alertes entre celles qui sont exploitables et le bruit, et en fournissant des informations de contexte pour les traiter

    • Ce problème montre surtout les difficultés des entreprises qui ne parviennent pas à mettre en place une observabilité utile
    • Le produit est bienvenu, mais il est souhaité qu’il ne mette pas en avant comme principal argument de vente le fait de rendre possibles de mauvaises pratiques culturelles
    • Le secteur des télécoms a résolu ce problème il y a 15 ans grâce à l’automatisation de la Fault Management
    • Avec le déplacement des alertes vers Slack, les données sont devenues du texte non structuré, ce qui a créé le besoin de solutions de filtrage complexes
  • Deuxième avis : expression d’inquiétudes concernant l’utilisation de LLM peu fiables pour des tâches importantes

    • Il serait préférable de résoudre le problème d’origine sans ajouter de LLM
  • Troisième avis : mention que le fondateur de All Quiet développe un outil qui n’utilise pas de LLM

    • Les utilisateurs ne veulent pas que des alertes critiques dépendent de LLM opaques
    • L’IA peut aider sur les symptômes, mais ne peut pas résoudre les causes profondes que sont les problèmes d’observabilité et de processus
  • Quatrième avis : expression d’inquiétudes concernant le filtrage de l’importance des notifications via des LLM

  • Cinquième avis : le fait de coupler étroitement l’outil à Slack limite les plateformes utilisables

    • Il existe aussi d’autres plateformes de messagerie instantanée
    • La question plus large de l’utilisation de la messagerie instantanée est discutée dans un autre fil de commentaires
  • Sixième avis : mention d’un grand enthousiasme pour cette direction

    • Expression de curiosité concernant le bootstrap initial et l’établissement continu d’une baseline
    • Information selon laquelle l’équipe de Louie.AI recrute des SE et pour des postes clés
  • Septième avis : explication des raisons pour lesquelles les problèmes du système d’alerte dans l’entreprise actuelle sont connus mais impossibles à résoudre

    • Il est impossible de désactiver les alertes et d’identifier ou de corriger les causes profondes
    • Bien gérer l’astreinte est un problème culturel
    • Les outils techniques ne peuvent pas résoudre les problèmes culturels
    • Pour résoudre un problème culturel, il n’y a guère d’autre choix que de trouver un autre emploi ou d’apprendre à l’accepter
  • Huitième avis : félicitations pour la création du produit, avec la remarque qu’il manque un mot dans le premier paragraphe

  • Neuvième avis : recherche d’une interface similaire pour les alertes métier

    • Souhait d’un outil utilisant des sources de données comme Snowflake/BigQuery
    • Mention que les outils utilisés ont fini par se transformer en canaux Slack spammy