- AICI - Artificial Intelligence Controller Interface
- Permet de créer des contrôleurs capables de contraindre et d’orienter en temps réel la sortie des grands modèles de langage (LLM)
- Les contrôleurs peuvent effectuer un décodage contraint, une édition dynamique des prompts et du texte généré, ainsi qu’une coordination entre des générations parallèles
- Les contrôleurs intègrent une logique personnalisée pendant le décodage token par token et conservent leur état durant les requêtes au LLM
- L’objectif d’AICI est de permettre de construire et d’expérimenter facilement des stratégies de contrôle existantes comme nouvelles
- En abstrahant les détails d’implémentation des moteurs sous-jacents d’inférence et de serving LLM
- afin de simplifier le développement de contrôleurs,
- de faciliter l’écriture de contrôleurs rapides,
- et de rendre plus simple la compatibilité entre moteurs d’inférence et de serving LLM
- AICI est conçu (à terme) pour une exécution en local comme dans le cloud, y compris pour des déploiements LLM multi-tenant
- Les contrôleurs sont implémentés sous forme de modules WebAssembly (Wasm) légers, exécutés sur le même système que le moteur d’inférence LLM, en exploitant le CPU pendant que le GPU est occupé à générer des tokens
- AICI est une couche de la stack d’inférence, conçue pour permettre à des bibliothèques de contrôle comme Guidance, LMQL, etc. de s’exécuter au-dessus et de bénéficier à la fois de portabilité, d’efficacité et d’améliorations de performance sur l’ensemble des moteurs d’inférence et de service LLM
- AICI est
- flexible : les contrôleurs peuvent être écrits dans n’importe quel langage pouvant être compilé en Wasm (Rust, C, C++, ...) ou interprété dans Wasm (Python, JavaScript, ...)
- sécurisé : les contrôleurs sont sandboxés et ne peuvent pas accéder au système de fichiers, au réseau ou à d’autres ressources
- rapide : les modules Wasm sont compilés en code natif et exécutés en parallèle du moteur d’inférence LLM, ce qui n’ajoute qu’un surcoût minimal au processus de génération
- Prototype conçu et réalisé par Microsoft Research
Aucun commentaire pour le moment.