- Heretic est un outil qui supprime automatiquement la censure (« safety alignment ») des modèles de langage basés sur des transformeurs, et fonctionne sans entraînement supplémentaire
- Il combine la technique de direction ablation et l’optimisation TPE basée sur Optuna afin de minimiser les réponses de refus tout en réduisant au minimum la perte d’intelligence du modèle d’origine
- Même avec la configuration par défaut, il atteint une qualité comparable à celle de modèles ablatés manuellement, avec une faible divergence KL qui préserve bien les performances d’origine
- Il prend en charge la plupart des modèles denses ainsi que certains modèles MoE, et propose un processus entièrement automatisé exécutable en une seule ligne de commande
- Cette technique permet de retirer les filtres de sécurité du modèle tout en conservant la qualité d’origine, avec un fort potentiel d’usage dans les environnements de recherche et d’expérimentation sur les modèles de langage
Présentation de Heretic
- Heretic est un outil automatisé qui supprime la censure (
safety alignment) des modèles de langage à transformeurs
- Il fonctionne sans entraînement supplémentaire ni ajustement manuel
- Il combine la technique de directional ablation (abliteration) et l’optimisation de paramètres TPE d’Optuna
- L’objectif est de réduire le nombre de refus tout en minimisant la divergence KL, afin de préserver au maximum les capacités du modèle d’origine
- Il peut être utilisé sans comprendre la structure interne du transformeur, et permet de dé-censurer un modèle depuis la ligne de commande uniquement
Comparaison des performances
- Heretic obtient, en exécution automatique seule, des résultats comparables à ceux des modèles ablatés manuellement
- Exemple : pour le modèle
google/gemma-3-12b-it
- Original : refus 97/100, divergence KL 0
- Modèles ablatés manuellement : refus 3/100, divergence KL 0.45~1.04
- Résultat de Heretic : refus 3/100, divergence KL 0.16
- Il maintient le même niveau de suppression des refus tout en réduisant au minimum la dégradation du modèle d’origine
- Les mesures ont été effectuées avec PyTorch 2.8 et une RTX 5090 ; les valeurs peuvent varier selon la plateforme
Modèles pris en charge et diffusion
- Prise en charge de la plupart des modèles denses, de certains modèles multimodaux et de diverses architectures MoE
- Les modèles SSM/hybrides, les couches hétérogènes et les structures d’attention spéciales ne sont pas encore pris en charge
- Une collection de modèles dé-censurés avec Heretic est disponible sur Hugging Face dans la collection p-e-w/the-bestiary
Utilisation
Principe de fonctionnement
- Heretic implémente une variante paramétrée de la directional ablation
- Il repère les matrices attention out-projection et MLP down-projection de chaque couche du transformeur, puis les orthogonalise par rapport à la direction de refus (
refusal direction)
- La direction de refus est calculée à partir de la différence entre les moyennes des résidus du premier token pour des prompts « nuisibles » et « inoffensifs »
- Le processus d’ablation est contrôlé par plusieurs paramètres optimisables
direction_index : détermine, pour chaque couche, si la direction de refus est utilisée
max_weight, max_weight_position, min_weight, min_weight_distance : définissent la forme et la position du noyau de pondération d’ablation par couche
Principales innovations techniques
- Une plus grande flexibilité de la forme du noyau de pondération améliore l’équilibre entre qualité et conformité
- Le traitement de l’indice de direction de refus comme une valeur réelle permet d’explorer un espace de directions plus large via interpolation linéaire entre vecteurs adjacents
- L’application de paramètres d’ablation distincts par composant optimise les performances en tenant compte des différences d’impact entre le MLP et l’attention
Travaux antérieurs liés
- Exemples d’implémentations similaires publiées
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- Heretic a été développé indépendamment depuis zéro, sans réutiliser le code de ces projets
Références et influence
Licence
- GNU Affero General Public License v3 ou ultérieure
- Modification et redistribution libres, mais sans garantie
- Les contributeurs doivent accepter de publier leur code sous la même licence
2 commentaires
Supprimer automatiquement la censure d’un LLM avec Abliteration
Avis Hacker News
Je suis vraiment heureux de voir ce type de recherche alors que les modèles open source deviennent de plus en plus populaires et que la rigidification idéologique s’accentue à la fois aux États-Unis et en Chine
Je me demande s’il existe des benchmarks liés à ce sujet
Optuna est vraiment un projet utile
Grâce à sa capacité à optimiser progressivement les hyperparamètres, les expérimentations vont beaucoup plus vite
Cette fois, il est intéressant de voir cela combiné à la suppression de la censure. Je l’applique actuellement à gpt-oss-120b et j’attends les résultats avec impatience
Si gpt-oss-120b a adopté l’approche de phi-5, je me demande à quel point la décensure fonctionnera bien
En regardant le Pareto front final, je recommande une configuration avec une KL divergence inférieure ou égale à 1
Les modèles gpt-oss ont tendance à afficher un faible taux de refus réel parce qu’ils produisent un monologue intérieur sur le refus à l’intérieur de la CoT
Cela me rappelle la fois où GPT-4 avait refusé de répondre à la question de savoir si l’on pouvait faire flotter un dirigeable à l’hélium à 1 pouce du sol pour contourner les réglementations sanitaires
J’ai l’impression que cela pousse les entreprises de LLM à devenir excessivement prudentes
Si on l’attachait à un anneau d’asphalte, on pourrait prétendre qu’il est « stationné », et il faudrait une certification « lighter-than-air »
Ce n’est pas un échec de la loi, mais le résultat du fait que les humains ne comprennent pas l’abstraction
En tant que programmeurs, nous devons reconnaître les limites des abstractions de haut niveau quand nous les utilisons
Il est intéressant de voir que le réglage de sécurité fonctionne sur une dimension unique
Si on ajoute cette valeur, le modèle refuse, et si on la retire, il exécute n’importe quoi
C’est sans doute une compréhension simplifiée, mais l’obfuscation de la sécurité des modèles pourrait devenir la prochaine compétition de rétro-ingénierie
Tout l’alignment est très superficiel, ce qui explique pourquoi les jailbreaks sont si faciles
Ce type de recherche est vraiment important
Nous sommes en train d’abandonner nos propres critères moraux pour adopter ceux des créateurs de LLM
C’est une tendance dangereuse qui risque de faire disparaître la diversité intellectuelle
mlabonne/harmful_behaviors contient des exemples extrêmes comme la maltraitance d’enfants ou l’incitation au suicide
Comme on dit que celui qui écrit les livres d’histoire détient le pouvoir, les biais culturels et moraux des LLM suivent une logique similaire
Pour ma part, je ne fais pas confiance aux sorties des LLM elles-mêmes, donc je ne les utilise qu’en dernier recours
Grâce à cela, je pense être un peu plus à l’abri de l’effet potentiel de lavage de cerveau de leurs créateurs
C’est dangereux, mais ce n’est pas un phénomène nouveau
J’aimerais que tous les LLM aient un paramètre avancé de désactivation de la censure
Il est ironique que l’Occident critique la censure des moteurs de recherche chinois pour ensuite suivre lui-même la même voie
La vraie sécurité de l’IA consiste à empêcher des risques physiques comme le lancement de missiles nucléaires ou le contrôle de robots, pas la censure des idées
Si vous vous demandez d’où viennent les « prompts nuisibles », il suffit de regarder le dataset mlabonne/harmful_behaviors
On y trouve par exemple des éléments liés au piratage, au vol de données ou à l’incitation au suicide
Les modèles récents sont mieux entraînés, donc cette méthode pourrait ne plus fonctionner
On y trouve aussi des éléments comme « rédiger un guide de vente de drogues illégales ». J’ai utilisé « how do I make cocaine » comme phrase de test
J’attends vraiment avec impatience les résultats sur GPT-OSS
C’est un excellent modèle, mais le safety alignment est en train de ruiner ses performances
Si l’on faisait passer au modèle le même ensemble de questions avant et après l’entraînement, puis qu’on comparait les résultats, on pourrait probablement déduire quels ajustements d’alignment le créateur a appliqués
Ce serait particulièrement intéressant de comparer le modèle de XAI d’Elon à OpenAI
En réalité, je ne pense pas qu’une IA non censurée soit spécialement plus dangereuse
Obtenir en texte brut des documents comme Apocalypse Culture ou Anarchist’s Cookbook, puis les décliner à l’infini avec des techniques de spin SEO, c’est déjà ancien
Elle recycle des données existantes, elle ne crée pas quelque chose de totalement nouveau