aipack : générateur de fichiers Parquet à segmentation sémantique neutre basé sur BGE-M3 + serveur MCP
(github.com/rkttu)Publication de la première version du framework aipack, qui effectue une segmentation sémantique à l’aide de BGE-M3, MarkItDown et d’un analyseur de structure Markdown, puis enregistre le résultat dans des fichiers Parquet. Il a été conçu pour implémenter du RAG à partir d’un format de fichier réutilisable à tout moment, en conservant un état neutre indépendant des modèles et des bases de données, et permet aussi de faire tourner un serveur MCP.
L’objectif d’aipack est de mettre en œuvre un RAG sans dépendre d’un NPU ou d’un GPU, tout en créant un environnement facile à étendre vers diverses architectures RAG à l’avenir. C’est un projet expérimental qui tente de découpler les pipelines RAG couramment utilisés dans l’industrie, à partir du principe que « si l’on peut produire des fichiers Parquet de haute qualité, alors tout devient possible ».
J’ai implémenté une idée que j’avais en tête depuis longtemps, donc il y a encore beaucoup d’aspects maladroits, mais je serais ravi de recevoir de nombreux retours et avis afin de m’appuyer dessus pour faire évoluer le projet vers quelque chose de meilleur !
Aucun commentaire pour le moment.