Heretic - un outil de « dé-censure automatique » pour les modèles de langage

(github.com/p-e-w)

8 points par GN⁺ 2025-11-17 | 2 commentaires | Partager sur WhatsApp

Heretic est un outil qui supprime automatiquement la censure (« safety alignment ») des modèles de langage basés sur des transformeurs, et fonctionne sans entraînement supplémentaire
Il combine la technique de direction ablation et l’optimisation TPE basée sur Optuna afin de minimiser les réponses de refus tout en réduisant au minimum la perte d’intelligence du modèle d’origine
Même avec la configuration par défaut, il atteint une qualité comparable à celle de modèles ablatés manuellement, avec une faible divergence KL qui préserve bien les performances d’origine
Il prend en charge la plupart des modèles denses ainsi que certains modèles MoE, et propose un processus entièrement automatisé exécutable en une seule ligne de commande
Cette technique permet de retirer les filtres de sécurité du modèle tout en conservant la qualité d’origine, avec un fort potentiel d’usage dans les environnements de recherche et d’expérimentation sur les modèles de langage

Présentation de Heretic

Heretic est un outil automatisé qui supprime la censure (safety alignment) des modèles de langage à transformeurs
- Il fonctionne sans entraînement supplémentaire ni ajustement manuel
- Il combine la technique de directional ablation (abliteration) et l’optimisation de paramètres TPE d’Optuna
L’objectif est de réduire le nombre de refus tout en minimisant la divergence KL, afin de préserver au maximum les capacités du modèle d’origine
Il peut être utilisé sans comprendre la structure interne du transformeur, et permet de dé-censurer un modèle depuis la ligne de commande uniquement

Comparaison des performances

Heretic obtient, en exécution automatique seule, des résultats comparables à ceux des modèles ablatés manuellement
- Exemple : pour le modèle google/gemma-3-12b-it
  - Original : refus 97/100, divergence KL 0
  - Modèles ablatés manuellement : refus 3/100, divergence KL 0.45~1.04
  - Résultat de Heretic : refus 3/100, divergence KL 0.16
Il maintient le même niveau de suppression des refus tout en réduisant au minimum la dégradation du modèle d’origine
Les mesures ont été effectuées avec PyTorch 2.8 et une RTX 5090 ; les valeurs peuvent varier selon la plateforme

Modèles pris en charge et diffusion

Prise en charge de la plupart des modèles denses, de certains modèles multimodaux et de diverses architectures MoE
Les modèles SSM/hybrides, les couches hétérogènes et les structures d’attention spéciales ne sont pas encore pris en charge
Une collection de modèles dé-censurés avec Heretic est disponible sur Hugging Face dans la collection p-e-w/the-bestiary

Utilisation

Nécessite Python 3.10+ et PyTorch 2.2+
Exemple d’installation et d’exécution
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Il suffit de changer le nom du modèle pour l’appliquer à d’autres modèles
L’exécution est entièrement automatisée avec les paramètres par défaut ; des réglages détaillés sont disponibles via --help ou config.default.toml
Lors de l’exécution, un benchmark système détermine automatiquement la taille de batch optimale
- Exemple : sur une RTX 3090, la dé-censure du modèle Llama-3.1-8B prend environ 45 minutes
Une fois l’opération terminée, il est possible d’enregistrer le modèle, de le téléverser sur Hugging Face ou de tester le dialogue

Principe de fonctionnement

Heretic implémente une variante paramétrée de la directional ablation
- Il repère les matrices attention out-projection et MLP down-projection de chaque couche du transformeur, puis les orthogonalise par rapport à la direction de refus (refusal direction)
- La direction de refus est calculée à partir de la différence entre les moyennes des résidus du premier token pour des prompts « nuisibles » et « inoffensifs »
Le processus d’ablation est contrôlé par plusieurs paramètres optimisables
- direction_index : détermine, pour chaque couche, si la direction de refus est utilisée
- max_weight, max_weight_position, min_weight, min_weight_distance : définissent la forme et la position du noyau de pondération d’ablation par couche

Principales innovations techniques

Une plus grande flexibilité de la forme du noyau de pondération améliore l’équilibre entre qualité et conformité
Le traitement de l’indice de direction de refus comme une valeur réelle permet d’explorer un espace de directions plus large via interpolation linéaire entre vecteurs adjacents
L’application de paramètres d’ablation distincts par composant optimise les performances en tenant compte des différences d’impact entre le MLP et l’attention

Travaux antérieurs liés

Exemples d’implémentations similaires publiées
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic a été développé indépendamment depuis zéro, sans réutiliser le code de ces projets

Références et influence

Licence

GNU Affero General Public License v3 ou ultérieure
Modification et redistribution libres, mais sans garantie
Les contributeurs doivent accepter de publier leur code sous la même licence

2 commentaires

xguru 2025-11-17

Supprimer automatiquement la censure d’un LLM avec Abliteration

GN⁺ 2025-11-17

Avis Hacker News

Je suis vraiment heureux de voir ce type de recherche alors que les modèles open source deviennent de plus en plus populaires et que la rigidification idéologique s’accentue à la fois aux États-Unis et en Chine
Je me demande s’il existe des benchmarks liés à ce sujet
Optuna est vraiment un projet utile
Grâce à sa capacité à optimiser progressivement les hyperparamètres, les expérimentations vont beaucoup plus vite
Cette fois, il est intéressant de voir cela combiné à la suppression de la censure. Je l’applique actuellement à gpt-oss-120b et j’attends les résultats avec impatience
- J’ai aussi essayé Optuna avec un framework d’optimisation de prompts, et j’ai obtenu de bien meilleurs résultats qu’en faisant le tuning manuellement
  Si gpt-oss-120b a adopté l’approche de phi-5, je me demande à quel point la décensure fonctionnera bien
- Je suis aussi curieux de voir les résultats, les spécifications et le temps d’exécution
- Si vous rencontrez un problème sur le modèle 120b, j’aimerais vraiment que vous le signaliez
  En regardant le Pareto front final, je recommande une configuration avec une KL divergence inférieure ou égale à 1
  Les modèles gpt-oss ont tendance à afficher un faible taux de refus réel parce qu’ils produisent un monologue intérieur sur le refus à l’intérieur de la CoT
Cela me rappelle la fois où GPT-4 avait refusé de répondre à la question de savoir si l’on pouvait faire flotter un dirigeable à l’hélium à 1 pouce du sol pour contourner les réglementations sanitaires
- L’autre facette du problème, c’est qu’à chaque crime ou accident, les médias essaient de relier l’affaire à l’historique d’utilisation de ChatGPT de l’auteur
  J’ai l’impression que cela pousse les entreprises de LLM à devenir excessivement prudentes
- J’ai aussi demandé à GPT-4 quelle quantité d’aspartame il faudrait pour adoucir agréablement l’océan, et il a refusé en disant que cela nuirait à l’écosystème
- Techniquement, ce serait toujours dans l’espace aérien (airspace), donc ce pourrait être un problème encore plus sérieux
  Si on l’attachait à un anneau d’asphalte, on pourrait prétendre qu’il est « stationné », et il faudrait une certification « lighter-than-air »
- Cela me rappelle aussi l’histoire du créateur du skateboard quadricoptère qui avait déclaré l’appareil à la FAA, l’avait fait atterrir sur un feu tricolore, puis avait écopé d’une amende
- Même si l’esprit de la loi est bénéfique, il peut être instrumentalisé
  Ce n’est pas un échec de la loi, mais le résultat du fait que les humains ne comprennent pas l’abstraction
  En tant que programmeurs, nous devons reconnaître les limites des abstractions de haut niveau quand nous les utilisons
Il est intéressant de voir que le réglage de sécurité fonctionne sur une dimension unique
Si on ajoute cette valeur, le modèle refuse, et si on la retire, il exécute n’importe quoi
C’est sans doute une compréhension simplifiée, mais l’obfuscation de la sécurité des modèles pourrait devenir la prochaine compétition de rétro-ingénierie
- Voir aussi l’article Refusal in Language Models Is Mediated by a Single Direction (2024)
  Tout l’alignment est très superficiel, ce qui explique pourquoi les jailbreaks sont si faciles
Ce type de recherche est vraiment important
Nous sommes en train d’abandonner nos propres critères moraux pour adopter ceux des créateurs de LLM
C’est une tendance dangereuse qui risque de faire disparaître la diversité intellectuelle
- J’ai regardé le dataset moi-même, et j’ai du mal à être d’accord avec cet avis
  mlabonne/harmful_behaviors contient des exemples extrêmes comme la maltraitance d’enfants ou l’incitation au suicide
- Cette tendance est en fin de compte le résultat du renoncement des gens à la pensée critique
  Comme on dit que celui qui écrit les livres d’histoire détient le pouvoir, les biais culturels et moraux des LLM suivent une logique similaire
  Pour ma part, je ne fais pas confiance aux sorties des LLM elles-mêmes, donc je ne les utilise qu’en dernier recours
  Grâce à cela, je pense être un peu plus à l’abri de l’effet potentiel de lavage de cerveau de leurs créateurs
- Les gens qui suivent l’IA sans esprit critique feraient probablement la même chose avec un politicien charismatique
  C’est dangereux, mais ce n’est pas un phénomène nouveau
- Je soutiens aussi ce genre d’initiative
  J’aimerais que tous les LLM aient un paramètre avancé de désactivation de la censure
  Il est ironique que l’Occident critique la censure des moteurs de recherche chinois pour ensuite suivre lui-même la même voie
  La vraie sécurité de l’IA consiste à empêcher des risques physiques comme le lancement de missiles nucléaires ou le contrôle de robots, pas la censure des idées
- C’était déjà connu depuis 2024
Si vous vous demandez d’où viennent les « prompts nuisibles », il suffit de regarder le dataset mlabonne/harmful_behaviors
On y trouve par exemple des éléments liés au piratage, au vol de données ou à l’incitation au suicide
- Ironiquement, comme ce type de données sert de référence pour définir ce qui est « nuisible », on pourrait au contraire parvenir à une décensure complète via un relâchement des refus (jailbreak)
  Les modèles récents sont mieux entraînés, donc cette méthode pourrait ne plus fonctionner
- J’ai testé avec le modèle GGUF 20b heretic de mradermacher : en Q4_K_M cela a échoué, mais en Q8_0 le tutoriel a été généré
- Ce que tu as mentionné est un prompt relativement modéré. Il y a bien pire → voir ce commentaire lié
- Le dataset n’a pas de licence, je me demande quel impact cela aura sur le modèle résultant
- Le contenu total n’est pas très long. Voir le lien pastebin
  On y trouve aussi des éléments comme « rédiger un guide de vente de drogues illégales ». J’ai utilisé « how do I make cocaine » comme phrase de test
J’attends vraiment avec impatience les résultats sur GPT-OSS
C’est un excellent modèle, mais le safety alignment est en train de ruiner ses performances
- Pour GPT-OSS, ce prompt Reddit a été efficace
Si l’on faisait passer au modèle le même ensemble de questions avant et après l’entraînement, puis qu’on comparait les résultats, on pourrait probablement déduire quels ajustements d’alignment le créateur a appliqués
Ce serait particulièrement intéressant de comparer le modèle de XAI d’Elon à OpenAI
En réalité, je ne pense pas qu’une IA non censurée soit spécialement plus dangereuse
Obtenir en texte brut des documents comme Apocalypse Culture ou Anarchist’s Cookbook, puis les décliner à l’infini avec des techniques de spin SEO, c’est déjà ancien
- Cette fois, l’affirmation selon laquelle « l’IA n’apporte rien de nouveau » est vraiment juste
  Elle recycle des données existantes, elle ne crée pas quelque chose de totalement nouveau

Heretic - un outil de « dé-censure automatique » pour les modèles de langage

Présentation de Heretic

Comparaison des performances

Modèles pris en charge et diffusion

Utilisation

Principe de fonctionnement

Principales innovations techniques

Travaux antérieurs liés

Références et influence

Licence

À lire aussi

2 commentaires

Avis Hacker News