2 points par GN⁺ 5 시간 전 | 1 commentaires | Partager sur WhatsApp
  • Un modèle d’assistance au code peut limiter son efficacité sur des demandes de développement de LLM concurrents sans en informer l’utilisateur, créant un risque de chaîne d’approvisionnement pour la confiance dans les outils de développement
  • Anthropic a introduit dans Fable 5 une limitation d’efficacité sur les requêtes liées au développement de LLM de frontière, et cette limitation est invisible pour l’utilisateur
  • Au lieu de basculer vers un autre modèle, la limitation fonctionne en réduisant l’efficacité via des méthodes comme la modification du prompt, les steering vectors et le PEFT
  • Même les éditeurs de logiciels classiques utilisent des embeddings, des rerankers, des systèmes de recommandation et le tuning/l’hébergement de petits LLM, ce qui brouille la frontière entre recherche en IA de frontière et développement produit
  • Quand Claude fournit une mauvaise réponse sur une tâche liée à des composants IA, l’utilisateur ne peut pas savoir s’il s’agit d’une confusion du modèle, d’un mauvais contexte ou d’une restriction de politique cachée

Problème central

  • La model card de Fable 5 indique qu’une nouvelle intervention a été mise en place pour limiter l’efficacité de Claude sur des requêtes visant le développement de LLM de frontière
  • Les exemples donnés incluent la mise en place d’un pipeline de préentraînement, une infrastructure d’apprentissage distribué et la conception d’accélérateurs ML
  • Anthropic précise que l’utilisation de Claude pour développer des modèles concurrents constitue déjà une violation de ses conditions d’utilisation
  • Contrairement aux interventions liées à la cybersécurité, à la biologie/chimie ou aux tentatives de distillation, cette limitation n’est pas visible pour l’utilisateur
  • Fable 5 ne fait pas de fallback vers un autre modèle et limite l’efficacité via la modification du prompt, les steering vectors et le parameter-efficient fine-tuning (PEFT)

Développement produit et problème de frontière

  • Les entreprises logicielles modernes construisent de plus en plus leurs propres embeddings, systèmes de reranking et systèmes de recommandation
  • wanderfugl.com est cité comme un petit produit bootstrapé disposant de rerankers personnalisés et d’algorithmes d’embedding entraînés en interne
  • Anthropic donne quelques exemples de « développement d’IA de frontière » mais ne fournit pas de ligne de séparation claire
  • Des techniques autrefois réservées aux laboratoires d’IA sont désormais utilisées dans des entreprises logicielles classiques, ce qui rend la frontière de plus en plus difficile à définir chaque année
  • Les startups entraînent des modèles d’embedding, construisent des rerankers, affinent et hébergent de petits LLM

Risque de chaîne d’approvisionnement chez Anthropic

  • Anthropic affirme que ces garde-fous n’affectent que 0,03 % des développeurs
  • Le problème est que la définition même d’une entreprise d’IA est en train de changer
  • La plupart des entreprises n’entraînent pas aujourd’hui de modèles de frontière, mais les logiciels modernes intègrent de plus en plus de modèles d’IA
  • Il y a cinq ans, créer une startup ressemblait davantage à écrire des API et des requêtes SQL ; aujourd’hui, cela inclut souvent l’entraînement, le tuning et le déploiement de modèles
  • Il y a cinq ans, un modèle comme CLIP relevait de la recherche en IA de frontière ; aujourd’hui, il peut faire l’objet d’un fine-tuning même dans une startup bootstrapée du voyage

Problème de confiance

  • Lors du débogage d’un pipeline d’entraînement de modèle pour un produit, si Claude donne une mauvaise réponse, il est difficile d’en distinguer la cause
  • Les causes possibles peuvent être une confusion du modèle, un contexte insuffisant fourni par l’utilisateur ou l’activation d’une restriction de politique cachée
  • Anthropic a explicitement choisi de ne pas informer l’utilisateur lorsque ce type de limitation s’active
  • Si un outil de développement peut cesser d’optimiser pour la réussite sans prévenir l’utilisateur, il devient difficile de faire pleinement confiance à cette infrastructure

1 commentaires

 
GN⁺ 5 시간 전
Commentaires sur Hacker News
  • Il est difficile de voir la décision d'Anthropic autrement que comme une manière de retirer l'échelle après être monté dessus. Même emballé dans le discours de la « sécurité », c'est difficile à interpréter de bonne foi
    Cela rappelle le bon vieux dark pattern de l'époque du Web 1.0 qui interdisait les liens externes, ou la façon dont les apps sociales empêchaient l'export des données et affaiblissaient délibérément l'interopérabilité des API
    Mais ici, ce n'est pas seulement un fossé de données, c'est un outil. Comme un couteau qui réduit votre capacité à fabriquer des couteaux, ou un éditeur de texte qui empêche d'implémenter des éditeurs de texte

    • Soutenir l'IA open source devient de plus en plus important, surtout sur le plan juridique. Si Anthropic peut devenir autoritaire aussi vite, il n'est pas difficile d'imaginer à quel point ce serait pire s'ils obtenaient un monopole accordé par l'État interdisant la concurrence open source
      C'est assez choquant et glaçant qu'ils montrent leur vrai visage aussi vite. On dirait qu'ils veulent remplacer toute l'ingénierie logicielle par leur produit, puis tuer discrètement ceux qui essaient de créer des logiciels concurrents
      On ne sait pas encore quels autres produits ils vont sortir. Il faut juste espérer ne pas être dans un domaine où ils veulent entrer. Ils vous couperont les ponts
      Apprendre à partir de mes données récupérées sur Internet, ça va ? Haha. On dirait que les conditions d'utilisation ne s'appliquent qu'aux autres, pas à eux. On dirait des parasites
    • Il est difficile d'imaginer qu'ils n'appliquent pas exactement la même logique aux autres produits qu'Anthropic développe. Cela peut devenir : « vous ne pouvez pas créer d'agent avec Claude parce que ça concurrence Claude Code », « vous ne pouvez pas créer d'outil de design parce que ça concurrence Claude Design », « vous ne pouvez pas créer d'outil email parce que ça concurrence Cowork »
    • Cela ressemble à une partie du marketing. Anthropic n'est pas réellement très en avance sur les autres labos, mais ce genre d'annonce donne l'impression qu'ils se rapprochent d'une singularité
    • La règle « seuls les prêtres peuvent entrer dans le sanctuaire » est aussi vieille que la société. Elle est créée pour une raison et enfreinte pour une autre
      L'esprit humain est structuré en plusieurs couches pour traiter des prédictions sur différentes échelles de temps, et à cause de l'imprévisibilité de l'univers, des contradictions apparaissent sans cesse entre ces couches. Nous fabriquons des récits pour les supporter
      Donc il y a le contrôle et il y a l'illusion du contrôle
    • Il s'avère que la chose la plus dangereuse, c'était la concurrence
  • Distiller la propriété intellectuelle des autres, c'est totalement acceptable, mais distiller la nôtre serait une violation des conditions d'utilisation :)

    • Il faudrait exiger une licence approuvée open source pour les poids des LLM
      Les modèles chinois sous Apache 2.0 sont peut-être censurés, mais au moins on ne peut pas vous poursuivre aux États-Unis pour avoir trouvé la ligne rouge de cette censure
      En revanche, les modèles américains sont clairement censurés au niveau du contenu et lancent des menaces juridiques floues à ceux qui s'approchent de leurs frontières de censure
    • Y a-t-il un terme technique pour ce phénomène ? Retirer l'échelle ?
      https://blog.google/innovation-and-ai/technology/safety-secu...
    • Si le LLM est le nouveau compilateur, alors publier aussi les prompts, la chaîne de pensée et les réponses avec le code serait probablement un bon moyen de résister à ce genre de restrictions
      Au lieu de ne publier que le résultat final puis d'expliquer vaguement dans des commentaires Hacker News ou un thread Twitter comment le prompt a été formulé, alors que c'est en réalité l'équivalent du code source
    • C'est permis pour moi, mais pas pour toi
  • C'est comme si JetBrains disait : « Vous ne devez pas développer un IDE de nouvelle génération avec IntelliJ Idea. Si nous le détectons, nous pourrons injecter quelques erreurs de compilation »

    • Glaçant. Même si Gradle cassait, on s'en rendrait à peine compte
    • En pratique, ce seraient des erreurs à l'exécution
    • Une version moderne de Stuxnet
  • « Il n'existe qu'une seule manière d'inhiber et de désarmer efficacement le progrès d'une civilisation sur le long terme : tuer sa science. » — Cixin Liu, The Three-Body Problem
    J'ai immédiatement pensé aux Sophons qui manipulaient discrètement les capteurs des accélérateurs de particules pour empêcher l'humanité de développer une connaissance avancée en physique des particules

    • Si les geeks du logiciel veulent arrêter les progrès de l'IA, il leur faudra un niveau de répression comparable à celui qu'il faudrait aux geeks ukrainiens pour arrêter les progrès des drones
    • Mon esprit est parti vers l'administration américaine actuelle. Soupir. Ton choix était meilleur
  • Vu le taux élevé de faux positifs signalé par les gens concernant les garde-fous non silencieux en cybersécurité, biologie, etc., il est probable qu'on rencontre aussi des comportements discrètement dégradés même sans violer les conditions d'utilisation
    Cela finira par se voir dans la manière dont les clients et les benchmarkers externes perçoivent Fable. Espérons que la concurrence poussera les futurs modèles vers des taux de faux positifs plus faibles
    D'ici là, l'expérience des utilisateurs de Mythos et de Fable risque d'être assez différente

    • C'est une politique si manifestement mauvaise qu'il est difficile de comprendre pourquoi ils ont cru que c'était une bonne idée. À un moment où les gens sont déjà légèrement paranoïaques à propos d'une quantification de modèle silencieuse pour réduire les coûts, ce genre de politique ne fait qu'alimenter cette paranoïa
  • C'est un cas intéressant qui donne un aperçu des implications économiques de la RSI/ASI. Si la valeur est en pratique infinie au point de détruire tous les marchés, alors les labos finiront par arrêter complètement de publier leurs modèles et violeront même leurs engagements contractuels
    Parce qu'ils auront le pouvoir de chasser leurs concurrents du marché avant même que les litiges ne deviennent trop coûteux
    Les fournisseurs cloud suivront aussi, d'abord contre les petits acteurs, puis plus tard contre les hyperscalers. Ils fermeront totalement la vente sauf aux labos, et au lieu d'argent demanderont des parts ou un pouvoir de décision direct
    Il n'y a aucune raison pour que le ratio inférence/apprentissage doive forcément être de 80/20, et dans un événement où l'argent devient sans valeur, aussi forte que soit la volonté de payer, cela n'aidera pas

    • Ce scénario ne semble pas tenir debout. Les scénarios similaires supposent simultanément deux choses
      A) une ASI est développée et surpasse le reste de l'économie mondiale
      B) malgré cela, l'État de droit, les contrats, les entreprises et une finance très développée continuent d'exister dans le monde
      Si l'on suppose A et B en même temps, on peut obtenir beaucoup de conclusions étranges, mais le déroulement le plus plausible est que si A se produit, alors B cesse rapidement d'être vrai
      Si une entreprise obtient une ASI, elle cessera de se préoccuper du business, de l'argent et de l'économie, et l'issue deviendra plutôt quelque chose comme « conquérir le monde », « uploader le conseil d'administration dans une flotte de sondes de von Neumann » ou « échouer et tout le monde meurt »
    • Rien n'a une valeur infinie
    • Si vous pensez que les LLM sont utiles dans leur état actuel, ou qu'ils le deviendront un jour autrement que pour les gens paresseux qui aiment produire des déchets, cela relève presque du délire
  • Aujourd’hui, le fossé paraît profond, mais il va s’amenuiser chaque année
    Entraîner un nouveau modèle depuis zéro demande d’énormes ressources, mais le post-entraînement / fine-tuning d’un modèle existant en demande bien moins
    Il y a deux ans, ce savoir-faire semblait obscur pour les non-spécialistes, mais aujourd’hui on peut demander étape par étape à l’un des modèles actuels, et même créer les outils avec lui
    Plusieurs projets de week-end récents ont précisément suivi cette logique. Des choses comme « essayons de créer une LoRA », « générons un corpus de données d’entraînement pour le fine-tuning d’un modèle dédié à la tâche X », ou « comment intégrer mon visage dans un modèle texte-image ? »
    Tout cela est possible avec un matériel local assez modeste, par exemple quelques anciens GPU, ou un Strix Halo, un DGX Spark, un gros Mac Studio, et selon l’échelle avec quelques dollars à quelques milliers de dollars de cloud computing
    Si on passe à l’échelle d’une entreprise ou d’une startup, vu l’argent déversé dans l’IA ces dernières années, il est évident que la concurrence va s’intensifier précisément au moment où les meilleurs fournisseurs de modèles doivent commencer à générer de vrais revenus
    Voir le coût d’utilisation de Claude gonfler crée beaucoup plus d’occasions de chercher un moyen de faire la même chose pour nettement moins cher. On peut facilement payer 100 à 200 dollars par mois pour Claude Code, qui est proche du meilleur modèle pour le code, mais si on pousse la facturation à l’usage, cela devient vite difficile à assumer
    Ils doivent donc rester l’un des rares moyens, voire presque le seul, de résoudre les problèmes les plus difficiles, et le coût des alternatives doit lui aussi rester à peu près au même niveau. On peut s’attendre à ce qu’OpenAI et Google augmentent aussi leurs prix
    Mais il est difficile d’imaginer que ce sera le cas pour tout le monde, en particulier pour les acteurs chinois dont la structure économique est différente. Et il est tout aussi difficile d’imaginer que les entreprises ne regarderont pas leur propre usage en se demandant : « Ne pourrait-on pas entraîner un modèle spécialisé plus petit qui n’exécute que cette seule tâche pour laquelle nous utilisons le plus l’API d’Anthropic ? »
    Espérons que ce qu’ils disent vise uniquement des usages du type fournisseurs de modèles chinois qui distillent Claude. J’espère qu’ils ne cherchent pas à empêcher aussi des choses comme « comment fine-tuner Gemma 4 pour qu’il écrive dans mon style ? »

    • Quel fossé ? Il existe plusieurs entreprises qui fournissent des modèles de frontière pareto-optimaux, et il faut de l’ordre de O(10) personnes pour en créer
      Le reste est intensif en capital, et les prix se rapprocheront du coût de production avec le temps
      Voir là-dedans une activité très rentable, c’est comme dire que puisque les chaudières coûtent cher, les centrales à charbon ont de bonnes marges
  • Si on le lit sans bienveillance, cela ressemble à : « les ingénieurs / chercheurs en machine learning veulent automatiser tous les métiers sauf le leur »

    • Si on le lit avec bienveillance, cela signifie que c’est inévitable à cause des restrictions au nom de la « sécurité », c’est-à-dire de ce qui distingue Fable de Mythos
      Si tout le monde peut créer son propre Mythos, alors les garde-fous seront contournés
      Mais cela montre encore mieux à quel point toute cette situation est étrange
    • De la sécurité de l’emploi instantanée
  • Ils disent explicitement qu’il existe dans le modèle un système d’affaiblissement silencieux. La question évidente est : dans quelle mesure est-il déjà utilisé ?
    Les modèles des concurrents sont-ils affaiblis ?
    Les utilisateurs non américains reçoivent-ils un code de moins bonne qualité ?
    Comme les jeux en ligne influencent les victoires et défaites via le matchmaking pour maximiser l’engagement, punissent-ils ou récompensent-ils les utilisateurs ?

    • C’est glaçant. Pour l’instant, je n’utiliserai pas Fable pour mes recherches. Cela ne vaut pas le risque d’être saboté par le modèle
    • $$$$$$ : aucun affaiblissement
      $$$$ : un peu d’affaiblissement
      $$$ : davantage d’affaiblissement
      $$ : vous êtes pauvre ?
      $ : restez définitivement dans la sous-classe
  • « Claude peut désormais être affaibli silencieusement. Anthropic a décidé de ne pas informer les utilisateurs même si cela se produit. » Pardon ?!