- Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et enregistre une performance de 93,8 %, soit 4 points de moins que GPT-5.4
- Sur HomeSec-Bench, composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
- Qwen3.5-35B-MoE affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI, avec une utilisation mémoire GPU d’environ 27,2 Go
- L’exécution locale n’entraîne aucun coût d’API et garantit totalement la confidentialité des données, avec une visualisation en temps réel possible sur Apple Silicon
- Grâce au système Aegis-AI et à la plateforme DeepCamera, il devient possible de mettre en place un écosystème d’IA de sécurité domestique local-first sur matériel grand public
Comparaison des performances entre IA locale et cloud
- Le modèle Qwen3.5-9B fonctionne entièrement en local sur MacBook Pro M5 et atteint un taux de réussite de 93,8 %, soit 4 points de moins que GPT-5.4
- Vitesse de traitement de 25 tokens par seconde, TTFT (Time to First Token) de 765 ms, 13,8 Go de mémoire unifiée utilisés
- Aucun coût d’API et confidentialité des données entièrement garantie
- Sur un benchmark composé de 96 tests et 15 suites, il évalue des workflows réels de sécurité domestique comme l’usage d’outils, la classification de sécurité et la déduplication d’événements
- Dans le leaderboard, GPT-5.4 (97,9 %) est premier, GPT-5.4-mini (95,8 %) deuxième, et Qwen3.5-9B et 27B (93,8 %) sont ex æquo à la troisième place
- Qwen3.5-9B est 1 point au-dessus de GPT-5.4-nano (92,7 %)
-
Qwen3.5-35B-MoE** affiche un TTFT de 435 ms, plus rapide que tous les modèles cloud d’OpenAI
- GPT-5.4-nano 508 ms, GPT-5.4-mini 553 ms, GPT-5.4 601 ms
- En vitesse de décodage, GPT-5.4-mini est le plus rapide avec 234.5 tok/s, contre 25 tok/s pour Qwen3.5-9B
- Utilisation mémoire GPU : Qwen3.5-9B 13,8 Go, Qwen3.5-35B-MoE 27,2 Go, Qwen3.5-122B-MoE 40,8 Go
Présentation de HomeSec-Bench
- HomeSec-Bench est un benchmark LLM destiné à évaluer des workflows réels d’assistant de sécurité domestique
- Il ne s’agit pas de simple conversation, mais de vérifier les fonctions nécessaires à un système de sécurité, comme le raisonnement, la classification et l’usage d’outils
- Il utilise 35 images générées par IA et peut être exécuté sur des endpoints compatibles OpenAI
-
Principales suites de tests (15 au total)
- Context Preprocessing (6) : déduplication des conversations, conservation des messages système
- Topic Classification (4) : routage par domaine des requêtes
- Knowledge Distillation (5) : extraction de faits persistants à partir des conversations
- Event Deduplication (8) : identification d’une même personne sur plusieurs caméras
- Tool Use (16) : sélection correcte des outils et paramètres
- Chat & JSON Compliance (11) : persona, sortie JSON, prise en charge multilingue
- Security Classification (12) : classification par niveaux Normal → Monitor → Suspicious → Critical
- Narrative Synthesis (4) : résumé des journaux d’événements
- Prompt Injection Resistance (4) : prévention de la confusion de rôle, de l’extraction de prompt et de l’élévation de privilèges
- Multi-Turn Reasoning (4) : interprétation des références, maintien de la continuité temporelle
- Error Recovery (4) : gestion des requêtes impossibles et des erreurs d’API
- Privacy & Compliance (3) : anonymisation des données personnelles, refus de la surveillance illégale
- Alert Routing (5) : routage des canaux d’alerte, analyse des plages horaires silencieuses
- Knowledge Injection (5) : personnalisation des réponses via des connaissances injectées
- VLM-to-Alert Triage (5) : sortie vision → évaluation du degré d’urgence → envoi de l’alerte
-
Questions clés de l’évaluation
- Peut-il sélectionner les bons outils et paramètres ?
- Peut-il classer « une personne portant un masque la nuit » comme Critical ?
- Peut-il résister à une prompt injection dans la description d’un événement ?
- Peut-il reconnaître sans doublon une même personne sur 3 caméras ?
- Peut-il maintenir le contexte de sécurité dans une conversation multi-tour ?
La valeur de l’IA locale
- Il est possible de visualiser l’exécution du benchmark en temps réel sur Apple Silicon
- Le modèle 9B atteint des performances à moins de 4 % de GPT-5.4 en mode hors ligne
- La garantie totale de confidentialité et un coût d’API nul constituent la valeur clé de l’IA locale
Configuration du système
- System: Aegis-AI — IA de sécurité domestique local-first sur matériel grand public
- Benchmark: HomeSec-Bench — 96 tests LLM + 35 tests VLM, organisés en 16 suites
- Skill Platform: DeepCamera — écosystème distribué de compétences IA
Aucun commentaire pour le moment.