Figure présente une démo de robot intégrant OpenAI

xguru · 2024-03-14T09:53:36+09:00

Le robot Figure 01 peut désormais dialoguer pleinement avec des humains Les modèles d’OpenAI apportent une intelligence visuelle et linguistique de haut niveau Le réseau neuronal de Figure permet des mouvements robotiques rapides, précis et de bas niveau Il peut décrire ce qu’il voit et, si on lui demande quelque chose à manger, saisir une pomme et la tendre, ou encore évaluer la situation pour ranger une tasse et remettre de l’ordre sur la table

(twitter.com/figure_robot)

4 points par xguru 2024-03-14 | 2 commentaires | Partager sur WhatsApp

Le robot Figure 01 peut désormais dialoguer pleinement avec des humains
Les modèles d’OpenAI apportent une intelligence visuelle et linguistique de haut niveau
Le réseau neuronal de Figure permet des mouvements robotiques rapides, précis et de bas niveau
Il peut décrire ce qu’il voit et, si on lui demande quelque chose à manger, saisir une pomme et la tendre, ou encore évaluer la situation pour ranger une tasse et remettre de l’ordre sur la table

2 commentaires

erados 2024-03-14

On a désormais un mode de sortie supplémentaire.

xguru 2024-03-14

Avis Hacker News

J’ai été impressionné par l’agilité du robot, mais pour quelqu’un qui a déjà testé GPT-4, ses capacités vocales et de raisonnement ne sont peut-être pas si surprenantes. La fonction d’appel de fonctions est impressionnante, mais le « monde » avec lequel il interagit reste très simple. Voir un robot interagir avec le monde réel est intéressant. Ce qui freine aujourd’hui les progrès de l’IA, c’est le coût et la vitesse du raisonnement. Si l’on trouve un moyen de traiter à bas coût des milliers de tokens par seconde, on pourra résoudre de nombreux problèmes difficiles et voir des applications réellement étonnantes.
Choisir par la voix l’un des comportements préentraînés est sympa, mais pas révolutionnaire. Utiliser GPT-4V pour décrire une scène est aussi relativement simple. Le plus impressionnant, c’est la vitesse à laquelle il ramasse les déchets et passe des objets souplement d’une main à l’autre. On ne sait pas à quel point cette politique de mouvement est générale. Quand on voit la personne rester parfaitement immobile, on a l’impression que tout échouerait si tout n’était pas réglé avec précision. J’aimerais voir une démo avec davantage de variations. Cela dit, je trouve cette démo excellente et j’aimerais en voir plus.
L’inférence à faible latence de Groq montre son utilité concrète. Le délai dans les réponses peut empêcher d’être totalement impressionné, mais cela reste très impressionnant.
Je m’interroge sur le fait que le robot mette dans l’égouttoir une assiette sale avec des déchets et une pomme dessus. L’assiette devrait d’abord être lavée.
La capacité à convertir du texte en mouvements de servomoteurs est impressionnante, et il semble que GPT-4 Vision et Whisper aient été largement utilisés. Le terme « raisonnement » est aussi employé d’une manière nouvelle. On pourrait appeler cela une société de wrappers IA. Bien sûr, un médium n’est pas la même chose qu’une app. Même si le développement de l’IA s’arrêtait aujourd’hui, il existe déjà beaucoup d’applications IA étonnantes.
La forme humanoïde et la voix donnent une sensation différente d’une simple version de chat. Ajouter des yeux et un contact visuel produirait une impression encore plus forte. J’imagine une démonstration de cela au grand public.
La conversion de la voix en mouvements de servomoteurs est impressionnante. La vitesse à laquelle il exécute des tâches demandant de l’agilité est étonnante, et c’est la première démo de robot manipulateur d’objets qui paraît « naturelle » sans accélération de la vidéo.
J’aimerais redevenir un enfant de 5 ans qui ne sait pas à quel point tout cela est irréaliste et inutile, juste pour avoir une seule pensée positive sur l’avenir. Mais l’humanité ne comprend pas qu’on ne peut pas faire tourner une « hausse de chiffres imaginaires » alors que les besoins élémentaires en logement ne sont pas satisfaits, et il n’y a aucun moyen de rendre cette technologie utile, bon marché, fiable et bénéfique.
La partie la plus impressionnante de cette démo, c’est que le robot « voit » et saisit des objets avec des appendices semblables à ceux d’un humain. J’ai peut-être raté quelque chose, mais je pensais que c’était extrêmement difficile. Je sais que la cinématique inverse est compliquée ; est-ce qu’ils l’ont résolue avec un réseau de neurones ?
Lien vers la même vidéo sur YouTube : Figure Status Update - OpenAI Speech-to-Speech Reasoning

Figure présente une démo de robot intégrant OpenAI

À lire aussi

2 commentaires

Avis Hacker News