ProofOfThought : raisonnement basé sur les LLM avec démonstration de théorèmes Z3
(github.com/DebarghaG)- ProofOfThought combine les grands modèles de langage (LLM) avec le démonstrateur de théorèmes Z3 pour offrir un raisonnement puissant et interprétable
- Ce projet fournit des résultats de raisonnement précis et fiables pour des requêtes en langage naturel
- Grâce à une API Python de haut niveau, les développeurs peuvent implémenter et expérimenter facilement des tâches de raisonnement complexes
- Avec Z3DSL, il propose aussi un accès à un DSL de bas niveau basé sur JSON, permettant une personnalisation flexible
- Sa publication au Sys2Reasoning Workshop NeurIPS 2024 illustre les bénéfices d’une mise en pratique de résultats de recherche récents
Présentation du projet open source ProofOfThought
ProofOfThought est une bibliothèque open source de raisonnement qui adopte une approche de synthèse de programmes neuro-symbolique combinant les grands modèles de langage (LLM) et le démonstrateur de théorèmes Z3. Sa capacité à fournir des résultats de raisonnement robustes et interprétables sur des problèmes complexes du monde réel lui confère une importance notable, tant en recherche que dans les usages concrets.
En tant que projet open source, il peut être librement utilisé par tous pour la recherche, les services ou le développement, et présente l’avantage de rendre la vérification du processus de raisonnement et l’interprétation des erreurs plus faciles que dans les systèmes de raisonnement basés uniquement sur les LLM. Par rapport à d’autres systèmes, sa grande particularité est sa transparence structurelle : entrée en langage naturel → conversion automatique en programme logique → raisonnement basé sur Z3.
Architecture du système et composants principaux
-
API de haut niveau (
z3dsl.reasoning) :- exécution de requêtes de raisonnement en langage naturel
- interface Python facile à utiliser, y compris pour les débutants
-
DSL de bas niveau (
z3dsl) :- accès au démonstrateur de théorèmes Z3 via JSON
- bien adapté à la personnalisation avancée et à la construction de pipelines d’automatisation
Exemples de fonctions principales
-
Le LLM convertit la requête d’entrée en formule logique (programme symbolique)
-
Le démonstrateur Z3 produit un résultat vrai/faux (yes/no) ou une interprétation conditionnelle
-
Exemple :
- requête : "Nancy Pelosi condamnerait-elle publiquement l’avortement ?"
- résultat : False (non)
-
Fournit un pipeline d’évaluation (
EvaluationPipeline) :- évaluation par lots possible sur de grands jeux de données
- génération automatique de rapports, notamment sur la précision
Cas d’application et usages
- Automatisation de benchmarks de raisonnement à des fins de recherche
- Services de preuve automatique pour des graphes de connaissances basés sur les LLM ou des problèmes de logique d’ordre supérieur
- Potentiel d’application dans divers services d’IA, comme les requêtes politiques complexes ou la classification automatique de débats en langage naturel
Apport scientifique et caractéristiques
- Présenté au workshop Sys2Reasoning de NeurIPS 2024
- Une fiabilité fondée sur l’interprétation symbolique qui compense les limites actuelles des LLM en matière d’incertitude du raisonnement
- La transparence des résultats et de leurs justifications, ainsi que leur interprétabilité, constituent un atout majeur pour le développement de services réels
Conclusion
ProofOfThought combine les atouts des LLM et du démonstrateur de théorèmes Z3 pour offrir une valeur concrète aux développeurs et chercheurs qui veulent construire une infrastructure de raisonnement IA robuste et interprétable. La licence et l’architecture du projet ont été conçues pour s’intégrer à l’écosystème open source, ce qui le rend attractif à la fois pour la recherche académique et les usages industriels.
1 commentaires
Avis Hacker News
sympyde Python. Il partage l’impression que la combinaison d’un LLM flou et d’un outil rigoureux peut produire un effet très puissanto3-minifait bien correspondre le raisonnement textuel et les résultats sur SMT. Dans le produit commercial AWS Automated Reasoning Checks, on construit un modèle de domaine, on le vérifie, puis, à l’étape de génération de réponses, les paires Q/R produites par le LLM passent par une validation stricte au solveur pour s’assurer qu’elles respectent la politique. Ils soulignent qu’il est ainsi possible de garantir à plus de 99% la validité, du point de vue des politiques, des paires Q/R blog AWS