1 points par GN⁺ 2025-02-10 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2025-02-10
Commentaires Hacker News
  • Il s’agit d’une présentation d’une boîte à outils de démos variées

    • Segment Anything 2 : génère des découpes vidéo et des effets visuels amusants en quelques clics
    • Seamless Translation : permet d’entendre sa propre voix dans une autre langue
    • Animated Drawings : donne vie à des croquis dessinés à la main en les animant
    • Audiobox : crée des histoires audio à l’aide de voix et de sons générés par l’IA
  • Seamless Translation est assez bluffant

    • Lorsqu’un utilisateur parlant anglais et espagnol a enregistré une phrase en anglais puis écouté la sortie générée en espagnol, cela ressemblait presque à son propre espagnol
    • Cela dit, son espagnol contient davantage d’expressions propres au castillan
  • Je me demande pourquoi le titre est écrit Aidemos

  • Je me demande quelle est l’orientation de la recherche en IA chez Meta

    • Je comprends les objectifs de Google et de MSFT, mais la finalité de Meta reste floue pour moi
  • La démo de Seamless Translation est excellente

    • La voix traduite ressemble à la voix originale de l’utilisateur
    • S’ils arrivaient à faire cela en temps réel, ce serait incroyable
  • Meta comprend parfaitement l’impact de GPT-3 et de ChatGPT

    • Les modèles sont le point de départ, et c’est l’UX construite autour d’eux qui manifeste l’intelligence
    • C’est particulièrement frappant pour les modèles visuels
    • Il est intéressant d’entendre SAM2 dire qu’il peut « voir n’importe quoi »
    • C’est impressionnant de cliquer sur un ballon de football et de voir le modèle le suivre fluidement dans la vidéo, même lorsqu’il est masqué
  • Toutes les démos n’y figurent pas

    • Par exemple, la démo de Meta Motivo manque à l’appel (modèle de contrôle humanoïde)
  • J’obtiens le message « Le site n’est actuellement pas disponible dans votre région »

  • Je me demande où se trouvent tous les liens vers les modèles

  • C’est intéressant, mais j’aimerais que Meta explique clairement ce qu’ils veulent vraiment

    • Cela doit vouloir dire : « Veuillez nous fournir des données in the wild pour entraîner davantage les modèles »
  • Il y a quelques années, j’ai utilisé une technologie d’estimation de l’âge

    • L’utilisateur téléversait une image et aidait à aligner 10 % des points de repère du visage, puis l’estimateur s’exécutait
    • En cas d’erreur, des corrections étaient demandées pour l’améliorer
    • C’est toujours sympa, mais cela ne m’impressionne pas énormément par rapport à cette expérience précédente