Versor : un framework PyTorch qui utilise des rotations géométriques (rotors) au lieu de la multiplication matricielle

(github.com/Concode0)

26 points par concode0 2026-02-13 | 10 commentaires | Partager sur WhatsApp

Derrière les performances remarquables du deep learning, il y a toujours eu le « produit matriciel (Wx+b) ». Mais Versor remet ce standard en question. Son idée est que « les matrices provoquent des distorsions qui déchirent ou froissent les variétés (manifolds) pendant le traitement des données ».

Versor est un framework PyTorch fondé sur l’algèbre géométrique (Geometric Algebra), conçu pour dépasser ce « plafond de l’algèbre linéaire (Linear Algebra Ceiling) ». En utilisant des rotors à la place des matrices, il propose un nouveau paradigme de deep learning qui préserve la structure topologique intrinsèque des données (Topological Structure).

Philosophie centrale : Unbending (déplier) puis Filtering (filtrer)

L’approche de Versor ne consiste pas simplement à « tout conserver sans réduire la dimension ». L’idée clé est d’« aligner les données sans les abîmer, puis d’extraire proprement uniquement l’information nécessaire ».

Unbending (Rotor)

Les matrices classiques s’accompagnent de cisaillement (Shear) et d’étirement (Stretch), tandis que le produit sandwich d’un rotor est une isométrie (Isometry). Comme si l’on repassait une feuille froissée, il déplie les données en les faisant tourner tout en préservant parfaitement leurs distances et leurs angles.
Geometric Filtering (BladeSelector)

Une fois les données correctement dépliées d’un point de vue géométrique, l’information s’aligne sur certains axes (Basis Blade) ou degrés (Grade). BladeSelector élimine alors le bruit et ne conserve que l’information géométrique essentielle (par exemple les composantes vectorielles) afin de réduire la dimension. Il s’agit d’une compression qualitativement différente des approches classiques par projection, qui réduisent la dimension en déformant les données de force.

Principales caractéristiques

Metric-Agnostic Kernel : du cadre euclidien (Cl(3,0)) à l’espace-temps (Cl(1,3)) en passant par la géométrie conforme (Cl(4,1)), il fonctionne avec le même code en ne changeant que la signature (Signature).
White-Box AI : les paramètres appris ne sont pas des nombres opaques, mais des « plans de rotation (Bivector) ». Il est donc possible d’interpréter « sur quel plan et de combien le modèle a fait tourner les données pour les aligner ».
Allègement haute performance : prise en charge d’un scaling en O(n), avec une légèreté suffisante pour permettre une inférence en temps réel (5,8 ms/molécule) même sur un CPU M4.

Alors que des travaux récents remarqués dans le monde académique, comme GATr, adoptent une « approche architecturale » consistant à exploiter la GA au sein d’une structure de transformer, Versor se concentre sur « l’essence géométrique » en introduisant les rotors dès l’unité minimale de calcul afin de bloquer à la source les distorsions spatiales. Cela lui permet d’obtenir une grande légèreté, avec une inférence en temps réel malgré un nombre de paramètres bien plus faible.

Résultats de benchmark

QM9 (propriétés moléculaires) : avec la géométrie euclidienne 3D (Cl(3,0)), obtention d’un MAE de 14,42 meV après seulement 1 heure d’entraînement sur un unique GPU 4090.
Motion Alignment (UCI-HAR) : précision d’environ 100 % obtenue en alignant des données de mouvement de grande dimension, uniquement par rotation, dans un espace latent linéairement séparable.
Semantic Disentanglement (NLP) : 100 % de Grade Purity atteint sur le jeu de données 20 Newsgroups grâce à une séparation géométrique. (Un Grade Purity de 100 % signifie que des données fortement entremêlées ont été parfaitement séparées et alignées sans bruit, uniquement sous forme de composantes « vecteur (Vector) », ce qui démontre mathématiquement la réussite de l’apprentissage de la structure géométrique.)

N’est-ce pas du surapprentissage (Overfitting) ?

La rapidité de convergence et la forte précision peuvent susciter des doutes, mais elles s’expliquent par un fort biais inductif géométrique (Geometric Inductive Bias).

Une matrice classique (n x n) a trop de degrés de liberté et finit par apprendre même le bruit,
alors que les rotors de Versor sont mathématiquement contraints à ne permettre que la « rotation (Rotation) ».
Comme le cisaillement (Shear) et l’étirement (Stretch) sont structurellement impossibles, le modèle ne peut pas apprendre autre chose que la structure essentielle des données, même s’il le voulait. C’est ce qui lui donne d’excellentes capacités de généralisation avec peu de paramètres.

Versor fonctionne au-dessus de PyTorch, ce qui permet de réutiliser une interface similaire telle quelle. De nouveaux tasks et metrics sont actuellement en développement actif, donc tous les retours sont les bienvenus.

10 commentaires

kunggom 2026-02-17

Pourriez-vous expliquer en quoi le projet que vous avez partagé est lié à l’article suivant ?

Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor

Le nom est le même et les concepts utilisés semblent aussi similaires, mais comme c’est un domaine que je connais mal, je ne comprends pas bien de quelle manière ils sont liés.
Comme les démos concrètes sont différentes, j’imagine qu’il s’agit peut-être d’un cas où des idées proches sont apparues en même temps à une période similaire. Je me permets de poser la question, car je me demande si les tendances récentes du domaine s’orientent elles-mêmes dans cette direction.

concode0 2026-02-17

Merci pour votre intérêt. Je connais déjà l’article mentionné dans votre question, et j’ai moi-même procédé à un examen technique approfondi.
À l’issue de cet examen, j’ai constaté de nombreux indices graves de fraude scientifique (Research Misconduct), notamment l’impossibilité physique des indicateurs de performance avancés dans l’article ainsi que des manipulations de données. En conséquence, j’ai déjà effectué un signalement officiel auprès du comité d’éthique de la recherche de la QMUL (Queen Mary University of London), l’établissement d’affiliation des auteurs.
À ce jour, j’ai reçu une réponse de l’université confirmant la bonne réception du signalement et l’ouverture de la procédure officielle d’enquête (phase de triage). Je vous serais donc reconnaissant de considérer qu’il ne s’agit pas simplement d’un cas où les idées se seraient recoupées par hasard, mais d’un dossier faisant actuellement l’objet d’une enquête officielle à la suite de manquements à l’éthique de la recherche.
Merci encore d’avoir reconnu la valeur du projet original et d’avoir pris le temps de poser votre question

kunggom 2026-02-18

Je vois. Quoi qu’il en soit, j’espère que les choses se dérouleront comme elles le doivent.

junghan0611 2026-02-16

Oh, intéressant.

villcenter1 2026-02-14

Y a-t-il des résultats prouvables par des chiffres, plutôt que des indicateurs vagues comme « remarquable » ?

concode0 2026-02-14

Merci pour votre retour. Les chiffres mentionnés dans le corps de l’article vous ont peut-être semblé inhabituels et donc « vagues », mais Versor a été développé en s’appuyant rigoureusement sur des preuves numériques. Permettez-moi de résumer à nouveau les indicateurs clés.

Sur la tâche QM9, nous avons atteint 14,42 meV en moins d’une heure sur une seule 4090. Comparé aux modèles SOTA existants, qui nécessitent plusieurs jours de calcul sur de grands clusters, ce résultat démontre une efficacité en ressources de plusieurs dizaines de fois supérieure.

Même en environnement CPU (M4), nous avons enregistré une vitesse d’inférence de 5,8 ms/molécule, ce qui confirme une meilleure efficacité que d’autres modèles.

Sur la tâche UCI-HAR également, nous avons obtenu 100 % de précision et de Grade Purity grâce à l’alignement géométrique. Ce n’est pas une simple estimation statistique, mais le chiffre le plus clair montrant que la structure topologique des données a été parfaitement alignée.

Versor démontre la réalité mathématique des contraintes géométriques. Nous continuerons à répondre par les chiffres dans les benchmarks à venir, et espérons susciter votre intérêt.

skageektp 2026-02-15

Vous avez bien donné les chiffres, mais ce serait utile de fournir aussi une comparaison de ces chiffres. Ce qui m’intéresse, c’est de savoir, sur le même matériel et pour quelque chose de similaire, à quel point c’est allé plus vite ; savoir simplement que la vitesse est de « combien » ne donne en réalité pas vraiment d’intuition, et j’ai l’impression que beaucoup de gens ne sont pas particulièrement curieux de ce chiffre en soi.

concode0 2026-02-15

Les données de comparaison seront bien sûr incluses. Cependant, nous avons estimé que les seuls chiffres d’efficacité horaire déjà présentés pour un GPU unique suffisaient à expliquer le caractère innovant de l’architecture. Si vous souhaitez une comparaison plus intuitive, nous vous remercions de bien vouloir attendre les graphiques qui seront prochainement mis à jour.

heal9179 2026-02-13

Je trouve vraiment cette approche très bonne
Je pensais que du côté de la topologie algébrique, il pouvait y avoir quelque chose de pertinent, mais cette voie est bien plus simple.

concode0 2026-02-13

Merci beaucoup pour votre empathie. De mon côté aussi, j’ai envisagé une approche du côté de la topologie algébrique au cours de mes recherches, mais j’en suis finalement arrivé à la conclusion que, du point de vue de l’ingénierie, la clarté de l’algèbre géométrique s’accorde mieux avec le deep learning. Le fait que vous ayez reconnu la valeur de cette « simplicité » me donne une grande confiance dans mon approche.