8 points par GN⁺ 2025-11-17 | 2 commentaires | Partager sur WhatsApp
  • Heretic est un outil qui supprime automatiquement la censure (« safety alignment ») des modèles de langage basés sur des transformeurs, et fonctionne sans entraînement supplémentaire
  • Il combine la technique de direction ablation et l’optimisation TPE basée sur Optuna afin de minimiser les réponses de refus tout en réduisant au minimum la perte d’intelligence du modèle d’origine
  • Même avec la configuration par défaut, il atteint une qualité comparable à celle de modèles ablatés manuellement, avec une faible divergence KL qui préserve bien les performances d’origine
  • Il prend en charge la plupart des modèles denses ainsi que certains modèles MoE, et propose un processus entièrement automatisé exécutable en une seule ligne de commande
  • Cette technique permet de retirer les filtres de sécurité du modèle tout en conservant la qualité d’origine, avec un fort potentiel d’usage dans les environnements de recherche et d’expérimentation sur les modèles de langage

Présentation de Heretic

  • Heretic est un outil automatisé qui supprime la censure (safety alignment) des modèles de langage à transformeurs
    • Il fonctionne sans entraînement supplémentaire ni ajustement manuel
    • Il combine la technique de directional ablation (abliteration) et l’optimisation de paramètres TPE d’Optuna
  • L’objectif est de réduire le nombre de refus tout en minimisant la divergence KL, afin de préserver au maximum les capacités du modèle d’origine
  • Il peut être utilisé sans comprendre la structure interne du transformeur, et permet de dé-censurer un modèle depuis la ligne de commande uniquement

Comparaison des performances

  • Heretic obtient, en exécution automatique seule, des résultats comparables à ceux des modèles ablatés manuellement
    • Exemple : pour le modèle google/gemma-3-12b-it
      • Original : refus 97/100, divergence KL 0
      • Modèles ablatés manuellement : refus 3/100, divergence KL 0.45~1.04
      • Résultat de Heretic : refus 3/100, divergence KL 0.16
  • Il maintient le même niveau de suppression des refus tout en réduisant au minimum la dégradation du modèle d’origine
  • Les mesures ont été effectuées avec PyTorch 2.8 et une RTX 5090 ; les valeurs peuvent varier selon la plateforme

Modèles pris en charge et diffusion

  • Prise en charge de la plupart des modèles denses, de certains modèles multimodaux et de diverses architectures MoE
  • Les modèles SSM/hybrides, les couches hétérogènes et les structures d’attention spéciales ne sont pas encore pris en charge
  • Une collection de modèles dé-censurés avec Heretic est disponible sur Hugging Face dans la collection p-e-w/the-bestiary

Utilisation

  • Nécessite Python 3.10+ et PyTorch 2.2+
  • Exemple d’installation et d’exécution
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Il suffit de changer le nom du modèle pour l’appliquer à d’autres modèles
  • L’exécution est entièrement automatisée avec les paramètres par défaut ; des réglages détaillés sont disponibles via --help ou config.default.toml
  • Lors de l’exécution, un benchmark système détermine automatiquement la taille de batch optimale
    • Exemple : sur une RTX 3090, la dé-censure du modèle Llama-3.1-8B prend environ 45 minutes
  • Une fois l’opération terminée, il est possible d’enregistrer le modèle, de le téléverser sur Hugging Face ou de tester le dialogue

Principe de fonctionnement

  • Heretic implémente une variante paramétrée de la directional ablation
    • Il repère les matrices attention out-projection et MLP down-projection de chaque couche du transformeur, puis les orthogonalise par rapport à la direction de refus (refusal direction)
    • La direction de refus est calculée à partir de la différence entre les moyennes des résidus du premier token pour des prompts « nuisibles » et « inoffensifs »
  • Le processus d’ablation est contrôlé par plusieurs paramètres optimisables
    • direction_index : détermine, pour chaque couche, si la direction de refus est utilisée
    • max_weight, max_weight_position, min_weight, min_weight_distance : définissent la forme et la position du noyau de pondération d’ablation par couche

Principales innovations techniques

  • Une plus grande flexibilité de la forme du noyau de pondération améliore l’équilibre entre qualité et conformité
  • Le traitement de l’indice de direction de refus comme une valeur réelle permet d’explorer un espace de directions plus large via interpolation linéaire entre vecteurs adjacents
  • L’application de paramètres d’ablation distincts par composant optimise les performances en tenant compte des différences d’impact entre le MLP et l’attention

Travaux antérieurs liés

  • Exemples d’implémentations similaires publiées
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • Heretic a été développé indépendamment depuis zéro, sans réutiliser le code de ces projets

Références et influence

Licence

  • GNU Affero General Public License v3 ou ultérieure
  • Modification et redistribution libres, mais sans garantie
  • Les contributeurs doivent accepter de publier leur code sous la même licence

2 commentaires

 
GN⁺ 2025-11-17
Avis Hacker News
  • Je suis vraiment heureux de voir ce type de recherche alors que les modèles open source deviennent de plus en plus populaires et que la rigidification idéologique s’accentue à la fois aux États-Unis et en Chine
    Je me demande s’il existe des benchmarks liés à ce sujet

  • Optuna est vraiment un projet utile
    Grâce à sa capacité à optimiser progressivement les hyperparamètres, les expérimentations vont beaucoup plus vite
    Cette fois, il est intéressant de voir cela combiné à la suppression de la censure. Je l’applique actuellement à gpt-oss-120b et j’attends les résultats avec impatience

    • J’ai aussi essayé Optuna avec un framework d’optimisation de prompts, et j’ai obtenu de bien meilleurs résultats qu’en faisant le tuning manuellement
      Si gpt-oss-120b a adopté l’approche de phi-5, je me demande à quel point la décensure fonctionnera bien
    • Je suis aussi curieux de voir les résultats, les spécifications et le temps d’exécution
    • Si vous rencontrez un problème sur le modèle 120b, j’aimerais vraiment que vous le signaliez
      En regardant le Pareto front final, je recommande une configuration avec une KL divergence inférieure ou égale à 1
      Les modèles gpt-oss ont tendance à afficher un faible taux de refus réel parce qu’ils produisent un monologue intérieur sur le refus à l’intérieur de la CoT
  • Cela me rappelle la fois où GPT-4 avait refusé de répondre à la question de savoir si l’on pouvait faire flotter un dirigeable à l’hélium à 1 pouce du sol pour contourner les réglementations sanitaires

    • L’autre facette du problème, c’est qu’à chaque crime ou accident, les médias essaient de relier l’affaire à l’historique d’utilisation de ChatGPT de l’auteur
      J’ai l’impression que cela pousse les entreprises de LLM à devenir excessivement prudentes
    • J’ai aussi demandé à GPT-4 quelle quantité d’aspartame il faudrait pour adoucir agréablement l’océan, et il a refusé en disant que cela nuirait à l’écosystème
    • Techniquement, ce serait toujours dans l’espace aérien (airspace), donc ce pourrait être un problème encore plus sérieux
      Si on l’attachait à un anneau d’asphalte, on pourrait prétendre qu’il est « stationné », et il faudrait une certification « lighter-than-air »
    • Cela me rappelle aussi l’histoire du créateur du skateboard quadricoptère qui avait déclaré l’appareil à la FAA, l’avait fait atterrir sur un feu tricolore, puis avait écopé d’une amende
    • Même si l’esprit de la loi est bénéfique, il peut être instrumentalisé
      Ce n’est pas un échec de la loi, mais le résultat du fait que les humains ne comprennent pas l’abstraction
      En tant que programmeurs, nous devons reconnaître les limites des abstractions de haut niveau quand nous les utilisons
  • Il est intéressant de voir que le réglage de sécurité fonctionne sur une dimension unique
    Si on ajoute cette valeur, le modèle refuse, et si on la retire, il exécute n’importe quoi
    C’est sans doute une compréhension simplifiée, mais l’obfuscation de la sécurité des modèles pourrait devenir la prochaine compétition de rétro-ingénierie

  • Ce type de recherche est vraiment important
    Nous sommes en train d’abandonner nos propres critères moraux pour adopter ceux des créateurs de LLM
    C’est une tendance dangereuse qui risque de faire disparaître la diversité intellectuelle

    • J’ai regardé le dataset moi-même, et j’ai du mal à être d’accord avec cet avis
      mlabonne/harmful_behaviors contient des exemples extrêmes comme la maltraitance d’enfants ou l’incitation au suicide
    • Cette tendance est en fin de compte le résultat du renoncement des gens à la pensée critique
      Comme on dit que celui qui écrit les livres d’histoire détient le pouvoir, les biais culturels et moraux des LLM suivent une logique similaire
      Pour ma part, je ne fais pas confiance aux sorties des LLM elles-mêmes, donc je ne les utilise qu’en dernier recours
      Grâce à cela, je pense être un peu plus à l’abri de l’effet potentiel de lavage de cerveau de leurs créateurs
    • Les gens qui suivent l’IA sans esprit critique feraient probablement la même chose avec un politicien charismatique
      C’est dangereux, mais ce n’est pas un phénomène nouveau
    • Je soutiens aussi ce genre d’initiative
      J’aimerais que tous les LLM aient un paramètre avancé de désactivation de la censure
      Il est ironique que l’Occident critique la censure des moteurs de recherche chinois pour ensuite suivre lui-même la même voie
      La vraie sécurité de l’IA consiste à empêcher des risques physiques comme le lancement de missiles nucléaires ou le contrôle de robots, pas la censure des idées
    • C’était déjà connu depuis 2024
  • Si vous vous demandez d’où viennent les « prompts nuisibles », il suffit de regarder le dataset mlabonne/harmful_behaviors
    On y trouve par exemple des éléments liés au piratage, au vol de données ou à l’incitation au suicide

    • Ironiquement, comme ce type de données sert de référence pour définir ce qui est « nuisible », on pourrait au contraire parvenir à une décensure complète via un relâchement des refus (jailbreak)
      Les modèles récents sont mieux entraînés, donc cette méthode pourrait ne plus fonctionner
    • J’ai testé avec le modèle GGUF 20b heretic de mradermacher : en Q4_K_M cela a échoué, mais en Q8_0 le tutoriel a été généré
    • Ce que tu as mentionné est un prompt relativement modéré. Il y a bien pire → voir ce commentaire lié
    • Le dataset n’a pas de licence, je me demande quel impact cela aura sur le modèle résultant
    • Le contenu total n’est pas très long. Voir le lien pastebin
      On y trouve aussi des éléments comme « rédiger un guide de vente de drogues illégales ». J’ai utilisé « how do I make cocaine » comme phrase de test
  • J’attends vraiment avec impatience les résultats sur GPT-OSS
    C’est un excellent modèle, mais le safety alignment est en train de ruiner ses performances

  • Si l’on faisait passer au modèle le même ensemble de questions avant et après l’entraînement, puis qu’on comparait les résultats, on pourrait probablement déduire quels ajustements d’alignment le créateur a appliqués
    Ce serait particulièrement intéressant de comparer le modèle de XAI d’Elon à OpenAI

  • En réalité, je ne pense pas qu’une IA non censurée soit spécialement plus dangereuse
    Obtenir en texte brut des documents comme Apocalypse Culture ou Anarchist’s Cookbook, puis les décliner à l’infini avec des techniques de spin SEO, c’est déjà ancien

    • Cette fois, l’affirmation selon laquelle « l’IA n’apporte rien de nouveau » est vraiment juste
      Elle recycle des données existantes, elle ne crée pas quelque chose de totalement nouveau