3 points par GN⁺ 2026-03-21 | 1 commentaires | Partager sur WhatsApp
  • Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et enregistre une performance de 93,8 %, soit 4 points de moins que GPT-5.4
  • Sur HomeSec-Bench, composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
  • Qwen3.5-35B-MoE affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI, avec une utilisation mémoire GPU d’environ 27,2 Go
  • L’exécution locale n’entraîne aucun coût d’API et garantit totalement la confidentialité des données, avec une visualisation en temps réel possible sur Apple Silicon
  • Grâce au système Aegis-AI et à la plateforme DeepCamera, il devient possible de mettre en place un écosystème d’IA de sécurité domestique local-first sur matériel grand public

Comparaison des performances entre IA locale et cloud

  • Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et atteint un taux de réussite de 93,8 %, soit 4 points de moins que GPT-5.4
    • Vitesse de traitement de 25 tokens par seconde, TTFT (Time to First Token) de 765 ms, 13,8 Go de mémoire unifiée utilisés
    • Aucun coût d’API et confidentialité des données entièrement garantie
  • Sur un benchmark composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
  • Dans le leaderboard, GPT-5.4 (97,9 %) est premier, GPT-5.4-mini (95,8 %) deuxième, et Qwen3.5-9B et 27B (93,8 %) sont ex æquo à la troisième place
    • Qwen3.5-9B est 1 point au-dessus de GPT-5.4-nano (92,7 %)
  • Qwen3.5-35B-MoE** affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI

    • GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
    • En vitesse de décodage, GPT-5.4-mini est le plus rapide avec 234.5 tok/s, contre 25 tok/s pour Qwen3.5-9B
    • Utilisation mémoire GPU : Qwen3.5-9B 13,8 Go, Qwen3.5-35B-MoE 27,2 Go, Qwen3.5-122B-MoE 40,8 Go

Présentation de HomeSec-Bench

  • HomeSec-Bench est un benchmark LLM destiné à évaluer des workflows réels d’assistant de sécurité domestique
    • Il ne s’agit pas de simple conversation, mais de vérifier les fonctions nécessaires à un système de sécurité, comme le raisonnement, la classification et l’usage d’outils
    • Il utilise 35 images générées par IA et peut être exécuté sur des endpoints compatibles OpenAI
  • Principales suites de tests (15 au total)

    • Context Preprocessing (6) : déduplication des conversations, conservation des messages système
    • Topic Classification (4) : routage par domaine des requêtes
    • Knowledge Distillation (5) : extraction de faits persistants à partir des conversations
    • Event Deduplication (8) : identification d’une même personne sur plusieurs caméras
    • Tool Use (16) : sélection correcte des outils et paramètres
    • Chat & JSON Compliance (11) : persona, sortie JSON, prise en charge multilingue
    • Security Classification (12) : classification par niveaux Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4) : résumé des journaux d’événements
    • Prompt Injection Resistance (4) : prévention de la confusion de rôle, de l’extraction de prompt et de l’élévation de privilèges
    • Multi-Turn Reasoning (4) : interprétation des références, maintien de la continuité temporelle
    • Error Recovery (4) : gestion des requêtes impossibles et des erreurs d’API
    • Privacy & Compliance (3) : anonymisation des données personnelles, refus de la surveillance illégale
    • Alert Routing (5) : routage des canaux d’alerte, analyse des plages horaires silencieuses
    • Knowledge Injection (5) : personnalisation des réponses via des connaissances injectées
    • VLM-to-Alert Triage (5) : sortie vision → évaluation du degré d’urgence → envoi de l’alerte
  • Questions clés de l’évaluation

    • Peut-il sélectionner les bons outils et paramètres ?
    • Peut-il classer « une personne portant un masque la nuit » comme Critical ?
    • Peut-il résister à une prompt injection dans la description d’un événement ?
    • Peut-il reconnaître sans doublon une même personne sur 3 caméras ?
    • Peut-il maintenir le contexte de sécurité dans une conversation multi-tour ?

La valeur de l’IA locale

  • Il est possible de visualiser l’exécution du benchmark en temps réel sur Apple Silicon
  • Le modèle 9B atteint des performances à moins de 4 % de GPT-5.4 en mode hors ligne
  • La garantie totale de confidentialité et un coût d’API nul constituent la valeur clé de l’IA locale

Configuration du système

  • System: Aegis-AI — IA de sécurité domestique local-first sur matériel grand public
  • Benchmark: HomeSec-Bench — 96 tests LLM + 35 tests VLM, organisés en 16 suites
  • Skill Platform: DeepCamera — écosystème distribué de compétences IA

1 commentaires

 
GN⁺ 2026-03-21
Réactions sur Hacker News
  • J’imagine depuis longtemps qu’un jour, quand une famille achètera une maison ou des appareils électroménagers, elle achètera aussi un serveur d’IA
    Comme les progrès du matériel ralentissent, il pourrait suffire d’acheter une seule fois un système d’IA domestique capable de durer des décennies
    Je pense que ce système hériterait de l’historique de la famille, fonctionnerait entièrement hors ligne et deviendrait une sorte d’assistant permanent transmis de génération en génération

    • Je ne suis pas d’accord. Rien qu’en regardant la comparaison entre M1 et M5, on voit qu’en 5 ans, presque tout est devenu plus de 6 fois plus rapide : CPU/GPU, IA, rendu 3D, etc.
      L’idée d’un « serveur d’IA qui perpétue la lignée familiale » est séduisante, mais en pratique, il est impossible d’éviter l’obsolescence matérielle
    • Si vous aviez acheté un serveur domestique il y a 10 ans, il n’aurait probablement eu ni GPU ni accélérateur IA
      Même si les performances en single core stagnent aujourd’hui, l’IA repose sur le calcul parallèle, qui continue donc d’évoluer rapidement
      Je pense qu’il est encore trop tôt pour parler d’un serveur capable de durer plusieurs décennies
    • Le concept proposé n’est en réalité pas très différent d’un homelab
      La plupart des gens se contentent de confier au cloud des services comme le stockage de photos ou la sécurité
    • La prédiction d’un « serveur pour des décennies » me semble être une affirmation trop faible
    • En plus, comme ce genre de produit n’a pas de modèle de revenus par abonnement, les entreprises ont peu d’incitation à le fabriquer
  • Cette page est tape-à-l’œil, mais en réalité ce n’est qu’un simple benchmark de sécurité domestique
    Elle ne compare que des modèles Qwen, et la version la plus récente est même plus lente que la précédente
    Selon la tâche, le modèle optimal change ; pour la VL, le multilingue ou le raisonnement, d’autres modèles peuvent être meilleurs
    Qwen 3.5 est excellent, mais il n’existe pas de « modèle unique bon en tout »
    Le bon choix de modèle et la conception du prompt sont plus importants
    Pas besoin d’un Mac M5 récent : un PC portable vieux de 2 ans ou même un smartphone peut suffire

    • Merci pour le retour :) En voyant le ralentissement de Qwen3.5, j’ai désactivé le thinking mode
      Pour l’instant, je teste seulement les LLM sur un MBP Pro 64GB, et je pense que pour les VLM, LFM 450M est le meilleur
      Une mise à jour arrive bientôt
    • J’aimerais apprendre quels modèles conviennent à quelles tâches
      Je fais des essais avec LM Studio et je cherche un modèle pour coder en Rust et SQL comme alternative locale à Claude
    • Moi aussi, je fais tourner plusieurs caméras sur un Mac mini M2 16GB
      La combinaison Qwen 9B + LFM 450M fonctionne bien avec un budget inférieur à 400 $
      Je compte étendre les tests à davantage de modèles
  • Le M5 Pro est sorti, j’ai donc testé de vraies charges de travail IA
    Qwen3.5-9B a obtenu 93,8 %, soit 4 points de moins que GPT-5.4, et tout tourne en local
    25 tok/s, 765 ms de TTFT, et seulement 13,8 GB de mémoire utilisés
    Voir les résultats complets

    • Merci d’avoir partagé les résultats, mais la page et les commentaires ont un style grandiloquent qui donne l’impression d’avoir été écrit par une IA, ce qui rend difficile de comprendre le contenu réel des tests
      Ce serait bien d’avoir un lien où l’on voit clairement les éléments testés
    • S’il s’agit d’un « système de sécurité domestique entièrement local », est-ce que le GPU tourne à pleine charge 24 h/24 ?
      J’aimerais aussi savoir s’il n’y a pas eu de dégradation du silicium lors d’un usage prolongé
  • À l’heure actuelle, il faut environ 2 500 $ pour faire tourner un modèle local
    Fait intéressant, quand mes parents ont acheté un PC à 166 MHz en 1995, c’était à peu près le même prix

    • Je me souviens moi aussi avoir acheté des PC à plusieurs milliers de dollars dans les années 80 et 90
      Après avoir vu la vitesse à laquelle les appareils électroniques perdaient de la valeur, je suis devenu très sensible au prix
      Cela dit, avec le ralentissement de la loi de Moore, les prix ne baisseront peut-être plus aussi brutalement qu’avant
    • En 1989, j’ai acheté un 386sx pour 3 800 $, ce qui représenterait aujourd’hui presque 10 000 $
      C’est difficile à croire qu’à l’époque, on considérait ça comme un « bon rapport qualité-prix »
    • Le meilleur modèle local du benchmark, Qwen3.5-9B (Q4_K_M), est un modèle à 9B de paramètres quantifié en 4,5 bits
      Il tourne très bien même sur un Mac Mini à 500 $
    • Pour débuter, un Mac Mini 16GB (<499 $) suffit largement
      Même sur un Mini M2, les petits modèles fonctionnent bien
  • Ce test de prompt injection ne me semble pas très convaincant

    • C’est surtout utilisé pour la détection d’attaques de l’homme du milieu
      Merci d’y avoir jeté un œil
  • Techniquement, c’est excellent, mais il manque la fonction d’émission de certificats d’alarme pour l’assurance
    Dans la vraie vie des affaires, c’est indispensable pour obtenir des réductions d’assurance ou une indemnisation en cas de perte
    Au final, le principal obstacle n’est pas la technologie, mais plutôt la réglementation et la conformité

    • Oui, on dirait que le niveau d’exigence est très élevé
  • Je me demande comment ce système se compare à Frigate
    J’aimerais savoir s’il s’agit simplement d’une couche au-dessus d’un NVR, ou s’il gère aussi l’enregistrement déclenché par détection de mouvement

    • En achetant un Coral TPU pour Frigate, on peut déporter beaucoup d’inférence à moindre coût
    • Aegis prend en charge l’intégration des caméras ONVIF, l’enregistrement sur détection de mouvement et la compréhension contextuelle basée sur un VLM
      Il peut stocker localement les vidéos des caméras BLINK/RING et les utiliser comme mémoire persistante
  • Ça sonne comme une blague, mais le S de l’IA signifie Security

  • À l’avenir, les tokens pourraient être vendus comme le trafic de données et devenir un bien de consommation courant