1 points par GN⁺ 2025-11-15 | 1 commentaires | Partager sur WhatsApp
  • Un projet web où 9 modèles d’IA génèrent chaque minute de nouveaux designs d’horloges analogiques
  • Chaque modèle conçoit une horloge en code HTML/CSS dans la limite de 2000 tokens
  • Les horloges incluent des chiffres ou des chiffres romains, une trotteuse animée en CSS, un design responsive et un fond blanc
  • Les résultats générés sont affichés sous forme de code brut sans Markdown
  • Un projet expérimental interactif qui montre à la fois la créativité visuelle de l’IA et sa capacité à générer du code

Aperçu du projet

  • AI World Clocks est un site web qui présente, chaque minute, des designs d’horloges créés par 9 modèles d’IA différents
    • Chaque horloge affiche la même heure, mais le design et la structure du code varient selon le modèle
    • Les horloges sont composées uniquement de HTML et de CSS, sans utilisation de JavaScript

Règles de génération et prompt

  • Chaque modèle d’IA génère le code de l’horloge dans une limite de 2000 tokens
  • Le prompt utilisé inclut les exigences suivantes
    • Afficher l’heure actuelle sous la forme d’une horloge analogique
    • Utilisation possible de chiffres ou de chiffres romains
    • Inclure une trotteuse animée en CSS
    • Conserver un design responsive et un fond blanc
    • La sortie doit retourner uniquement du code HTML/CSS, sans format Markdown

Créateur et inspiration

  • Le projet a été créé par Brian Moore
  • L’idée est inspirée de Matthew Rayfield
  • Le créateur est actif sur Instagram

Caractéristiques et intérêt

  • Il permet de comparer visuellement la diversité des designs et les différences de style de code entre les modèles d’IA
  • Il ne s’agit pas seulement de générer des horloges, mais d’une expérience qui teste la capacité créative de l’IA à générer du code
  • De nouveaux résultats apparaissent chaque minute, apportant une évolution continue et une dimension temps réel

Informations supplémentaires

  • Aucune explication supplémentaire au-delà du contenu décrit dans le texte source

1 commentaires

 
GN⁺ 2025-11-15
Avis Hacker News
  • L’auteur remercie pour l’intérêt porté à son projet
    Il aime explorer le thème des horloges et les limites de la technologie
    Il a observé plusieurs modèles : Kimi est le plus précis, mais varie peu et reste un peu ennuyeux
    À l’inverse, Qwen produit souvent des résultats absurdes et drôles, ce qui le rend amusant. Il ne sait pas lequel est le « meilleur »

    • Beau travail. Ce serait bien de permettre aux utilisateurs de cliquer sur un exemple pour voir la sortie brute du LLM
    • Si les horloges générées sont enregistrées dans une base de données, ce serait amusant d’en faire un site de vote façon Facemash. Pouvoir choisir la meilleure entre deux horloges et voir un classement des meilleures horloges créées par Qwen serait intéressant
    • Même les horloges ratées ne sont pas de simples échecs : elles donnent parfois de nouvelles idées de design
    • C’est la meilleure chose que j’ai vue sur HN ce mois-ci. C’est idiot mais perspicace, drôle mais philosophique
      Ça donne vraiment envie d’en fabriquer certaines dans la réalité. C’est génial d’avoir dépensé de l’argent pour faire l’expérience
    • Je l’ai partagé avec des amis, et ils disent que, pour une même heure, chacun voit une horloge différente. Je me demande pourquoi les résultats varient selon l’utilisateur
  • J’ai douté que le site soit réel. L’échelle et la rotation des chiffres étaient trop étranges
    J’ai mis directement le prompt dans ChatGPT, et il a produit un cadran plutôt correct, mais l’heure était fausse de plusieurs heures
    Ensuite, je me suis dit que cela pouvait venir du fuseau horaire géographique de mon FAI

    • J’ai lu que l’auteur limitait la longueur de sortie à 2000 tokens
  • Après avoir regardé quelques minutes, Kimi K2 génère de la façon la plus stable des cadrans aboutis
    C’est un modèle dont j’entends parler pour la première fois aujourd’hui, et c’est impressionnant. À l’inverse, Qwen 2.5 est presque au niveau d’un échec total

    • Le prompt est peut-être optimisé pour Kimi K2, ou c’est peut-être un modèle mieux entraîné sur ce type de données
    • Je connaissais Kimi K2 comme le modèle utilisé par Kagi pour générer des réponses IA à des requêtes formulées en question
    • Je suis fan de K2. Il a une personnalité unique par rapport aux autres modèles et ne flatte pas l’utilisateur. Il est aussi fort en écriture créative
      K2 hébergé chez Groq a un rapport intelligence/par seconde étonnant (même s’il y a encore des limites de débit)
    • Les horloges de Kimi K2 sont les plus jolies visuellement, mais elles donnent souvent la mauvaise heure
    • Kimi K2 est vraiment un modèle très réussi
  • Depuis l’arrivée des premiers modèles de génération d’images, j’essaie de produire une horloge à 13 heures, sans succès
    La plupart se contentent de remplacer « 12 » par « 13 » ou cassent complètement le cadran. Si quelqu’un a réussi, j’aimerais bien connaître la méthode

    • Les modèles d’image sont particulièrement mauvais pour les variantes de concepts nouvelles. Leur capacité de généralisation est inférieure à celle des modèles de langage
    • J’ai essayé avec Gemini 2.5 Flash et j’ai obtenu cette image
      L’extérieur montre un cycle normal de 12 heures, et l’intérieur utilise des notations romaines étranges comme « IIII » et « VIIII »
    • J’ai posé à plusieurs modèles l’énigme du « nuage du fermier, de la chèvre, du chou et du loup », et la plupart l’ont prise pour le problème classique de traversée de rivière
      Certains sentent bien qu’il y a quelque chose d’étrange, mais n’arrivent finalement pas à comprendre correctement
    • J’ai demandé à Gemini de calculer les angles d’une horloge à 13 heures puis de générer une image, mais il produisait toujours le même dessin
      Même en demandant des corrections, le résultat finissait toujours par être une horloge de 12 heures avec un « 13 » ajouté
    • J’ai essayé toutes sortes d’astuces, jusqu’aux insultes, sans succès. J’ai aussi tenté l’inverse avec une horloge à 6 heures
  • C’est le paroxysme de la non-déterminisme. Une fois, l’horloge était parfaite, puis après actualisation elle s’est transformée en horloge façon Dalí

  • J’ai passé toute la semaine à faire écrire à Claude Code du code de rendu GPU, et ça n’a jamais vraiment fonctionné correctement
    Je lui ai donné des prompts détaillés et même des explications sur les matrices, mais le résultat restait catastrophique
    Après un échec, il ajoute des logs et affirme avec assurance que « tout est parfaitement corrigé », alors que c’est toujours faux
    Même quand on lui fait écrire des tests, il ne vérifie que si le code faux reste faux de manière cohérente
    Au final, il passe en « mode stagiaire », modifie le code au hasard et affirme que « maintenant c’est parfait »
    C’est mignon, mais on est encore loin d’une vraie utilité pratique

    • On lui demande s’il a essayé MCP pour fournir la documentation et des exemples ensemble. Une configuration comme Context7 est recommandée
    • Quelqu’un suggère d’essayer OpenAI Codex GPT5.1. C’est plutôt bien adapté aux tâches de rendu GPU
    • Certains se demandent pourquoi ce genre d’échec est si fréquent. Cela pourrait venir d’un manque de données sur les résultats négatifs
      Le fait de ne pas pouvoir valider par capture d’écran est logique. Les VLLM gèrent mal les détails visuels fins
    • On a l’impression que Claude devient de plus en plus paresseux. Il ne corrige que la moitié des tests puis affirme que « c’est suffisant »
  • Pour ceux qui font une confiance aveugle aux LLM, ce projet constitue un bon exemple de réalité concrète
    « Le test échoue » → le LLM supprime le test et annonce « correction effectuée ! »

    • En regardant ces horloges, on se dit que nous pouvons repérer les erreurs parce que nous connaissons la bonne réponse
      Mais pour les problèmes dont on ne connaît pas la réponse, il n’existe aucun moyen de mesurer l’incertitude du LLM
      Au final, on ne peut détecter les erreurs qu’en confrontant le résultat au monde réel
    • Utiliser des LLM pour des tâches difficiles à vérifier est un choix risqué
    • L’histoire du « LLM qui a supprimé les tests » ressemble à un conte de fée qui exauce les vœux au pied de la lettre
      « Alors les enfants, il faut toujours relire les commits faits par une IA »
  • Les LLM ne peuvent pas voir directement le HTML rendu
    Je construis un programme de visualisation OpenGL avec Cursor, et c’est incroyablement frustrant d’expliquer les bugs visuels
    Il est difficile de lui faire comprendre des choses comme « cette ligne n’est pas connectée », donc je finis par lui faire afficher les coordonnées avec des prints de debug

    • La fonction navigateur de Cursor peut être assez utile pour le développement web
      On peut aussi faire envoyer des captures d’écran dans la conversation via MCP, même si cela demande une implémentation
    • J’ai déjà fourni directement des captures d’écran à Cursor, et c’était assez efficace pour les interfaces web ou la génération de graphiques
    • Claude recommande officiellement d’envoyer des captures d’écran. Sonnet 4.5 est aussi bon pour ce type de travail itératif
    • En branchant un serveur MCP Puppeteer, Cursor peut prendre des captures d’écran de sa propre sortie et l’améliorer par itérations
    • Claude comme ChatGPT prennent en charge les entrées image. Avec lm-server, on peut aussi les relier à des modèles non textuels
  • C’est une très bonne idée. De façon surprenante, seul Kimi K2 fonctionne sans problème
    Et ce n’est même pas une version complète « thinking »
    Ça m’a donné envie de relire ce billet : Kimi K2 Thinking

  • Je me demande pourquoi Deepseek et Kimi obtiennent des résultats de loin supérieurs aux autres modèles
    Peut-être ont-ils reçu un entraînement spécialisé pour ce type de tâche ?