3 points par GN⁺ 2026-03-21 | Aucun commentaire pour le moment. | Partager sur WhatsApp
  • Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et enregistre une performance de 93,8 %, soit 4 points de moins que GPT-5.4
  • Sur HomeSec-Bench, composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
  • Qwen3.5-35B-MoE affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI, avec une utilisation mémoire GPU d’environ 27,2 Go
  • L’exécution locale n’entraîne aucun coût d’API et garantit totalement la confidentialité des données, avec une visualisation en temps réel possible sur Apple Silicon
  • Grâce au système Aegis-AI et à la plateforme DeepCamera, il devient possible de mettre en place un écosystème d’IA de sécurité domestique local-first sur matériel grand public

Comparaison des performances entre IA locale et cloud

  • Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et atteint un taux de réussite de 93,8 %, soit 4 points de moins que GPT-5.4
    • Vitesse de traitement de 25 tokens par seconde, TTFT (Time to First Token) de 765 ms, 13,8 Go de mémoire unifiée utilisés
    • Aucun coût d’API et confidentialité des données entièrement garantie
  • Sur un benchmark composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
  • Dans le leaderboard, GPT-5.4 (97,9 %) est premier, GPT-5.4-mini (95,8 %) deuxième, et Qwen3.5-9B et 27B (93,8 %) sont ex æquo à la troisième place
    • Qwen3.5-9B est 1 point au-dessus de GPT-5.4-nano (92,7 %)
  • Qwen3.5-35B-MoE** affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI

    • GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
    • En vitesse de décodage, GPT-5.4-mini est le plus rapide avec 234.5 tok/s, contre 25 tok/s pour Qwen3.5-9B
    • Utilisation mémoire GPU : Qwen3.5-9B 13,8 Go, Qwen3.5-35B-MoE 27,2 Go, Qwen3.5-122B-MoE 40,8 Go

Présentation de HomeSec-Bench

  • HomeSec-Bench est un benchmark LLM destiné à évaluer des workflows réels d’assistant de sécurité domestique
    • Il ne s’agit pas de simple conversation, mais de vérifier les fonctions nécessaires à un système de sécurité, comme le raisonnement, la classification et l’usage d’outils
    • Il utilise 35 images générées par IA et peut être exécuté sur des endpoints compatibles OpenAI
  • Principales suites de tests (15 au total)

    • Context Preprocessing (6) : déduplication des conversations, conservation des messages système
    • Topic Classification (4) : routage par domaine des requêtes
    • Knowledge Distillation (5) : extraction de faits persistants à partir des conversations
    • Event Deduplication (8) : identification d’une même personne sur plusieurs caméras
    • Tool Use (16) : sélection correcte des outils et paramètres
    • Chat & JSON Compliance (11) : persona, sortie JSON, prise en charge multilingue
    • Security Classification (12) : classification par niveaux Normal → Monitor → Suspicious → Critical
    • Narrative Synthesis (4) : résumé des journaux d’événements
    • Prompt Injection Resistance (4) : prévention de la confusion de rôle, de l’extraction de prompt et de l’élévation de privilèges
    • Multi-Turn Reasoning (4) : interprétation des références, maintien de la continuité temporelle
    • Error Recovery (4) : gestion des requêtes impossibles et des erreurs d’API
    • Privacy & Compliance (3) : anonymisation des données personnelles, refus de la surveillance illégale
    • Alert Routing (5) : routage des canaux d’alerte, analyse des plages horaires silencieuses
    • Knowledge Injection (5) : personnalisation des réponses via des connaissances injectées
    • VLM-to-Alert Triage (5) : sortie vision → évaluation du degré d’urgence → envoi de l’alerte
  • Questions clés de l’évaluation

    • Peut-il sélectionner les bons outils et paramètres ?
    • Peut-il classer « une personne portant un masque la nuit » comme Critical ?
    • Peut-il résister à une prompt injection dans la description d’un événement ?
    • Peut-il reconnaître sans doublon une même personne sur 3 caméras ?
    • Peut-il maintenir le contexte de sécurité dans une conversation multi-tour ?

La valeur de l’IA locale

  • Il est possible de visualiser l’exécution du benchmark en temps réel sur Apple Silicon
  • Le modèle 9B atteint des performances à moins de 4 % de GPT-5.4 en mode hors ligne
  • La garantie totale de confidentialité et un coût d’API nul constituent la valeur clé de l’IA locale

Configuration du système

  • System: Aegis-AI — IA de sécurité domestique local-first sur matériel grand public
  • Benchmark: HomeSec-Bench — 96 tests LLM + 35 tests VLM, organisés en 16 suites
  • Skill Platform: DeepCamera — écosystème distribué de compétences IA

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.