1 points par lattice 2 시간 전 | Aucun commentaire pour le moment. | Partager sur WhatsApp

(Texte original en cliquant sur l’URL)

L’idée défendue ici est que, pour un builder, la question « quel est le meilleur modèle du moment ? » est bien moins utile que « quels critères sont devenus plus importants cette semaine ? ».
Les catalogues de modèles, les benchmarks et les timelines de l’AGI sont des unités d’analyse trop larges, donc inadaptées à la prise de décision des builders.

Les 3 limites des catalogues de modèles :

① Une durée de vie très courte, où les noms en tête du classement changent après un seul trimestre
② Un décalage d’échelle entre les scores de benchmark et les workflows réels en production
③ L’incapacité à expliquer l’écart entre « il se débrouille bien » et « on peut lui confier la tâche jusqu’au bout »

Il faut examiner ce que signifie réellement la frontière de l’IA.

Les builders doivent distinguer, selon 4 dimensions, la frontière entre « les tâches que l’IA peut mener à bien de bout en bout » et « les tâches qui exigent forcément une intervention humaine en cours de route ».

  1. Périmètre de la tâche (Task Scope) : ce n’est pas simplement une question de longueur de contexte, mais de savoir « avec quel niveau de fiabilité l’IA termine jusqu’au bout une tâche qui prend 10 minutes / 1 heure / une demi-journée à un humain ». Résumer 5 articles d’actualité ou trier les signaux d’une semaine puis aller jusqu’à une ébauche de newsletter, ce sont des tâches totalement différentes.

  2. Efficacité (Efficiency) : l’efficacité d’apprentissage au niveau humain. « Peut-elle apprendre le contexte de notre domaine à partir de quelques exemples seulement et le suivre de manière stable ? »
    Le principal goulet d’étranglement se situe dans les documents de travail en coréen, les régulations locales et les processus internes.

  3. Coût par output (Cost per Output) : pas le prix au token, mais « le coût total d’une unité d’output qu’on peut réellement livrer à un client ». Cela additionne l’entrée + la sortie + les appels API + les nouvelles tentatives + la relecture humaine + le coût de rollback. Altman affirme explicitement que le coût des IA de niveau comparable chute d’un facteur 10 tous les 12 mois (Three Observations, 2025).

  4. Fiabilité des appels d’outils (Tool Calling Reliability) : il ne s’agit pas d’une réussite ponctuelle en démo, mais de savoir « si cela tient encore lorsqu’on exécute la même chose de manière répétée, y compris avec des cas d’échec ».
    C’est aujourd’hui le principal goulet d’étranglement à mesure que l’IA passe d’un outil de réponse à un outil d’exécution du travail.

Question plus fondamentale que la timeline de l’AGI : « Même si l’AGI arrive, mon produit gardera-t-il de la valeur ? » Un simple wrapper de modèle perd sa différenciation dès que le modèle change.
Les produits qui ont accumulé une structure de données, des boucles de validation, une couche d’appels d’outils et une collecte des cas d’échec survivront aussi à l’ère de l’AGI.

L’opportunité unique des builders coréens : Claude / ChatGPT / Gemini sont déjà ouverts à tout le monde, donc il est impossible de se différencier simplement en « utilisant d’abord un bon modèle ».

Les modèles se standardisent, mais le contexte ne se standardise pas.

Le contexte de travail en coréen, les données par métier et la réinterprétation locale des signaux globaux sont les vrais points de différenciation.

Références : METR (Measuring AI Ability to Complete Long Tasks), ARC Prize, Stanford HAI AI Index 2026, Anthropic Finance Agents, Dario Amodei (Machines of Loving Grace), Leopold Aschenbrenner (Situational Awareness)

Aucun commentaire pour le moment.

Aucun commentaire pour le moment.