J’ai une RTX Pro 6000 (96 Go, en pratique 94 Go), mais le modèle 122B ne se charge pas avec ollama. J’imagine que c’est à cause de la partie intégrant le vision transformer, puisque c’est un modèle vision. Le modèle GPT OSS 120b, lui, se charge largement sans problème.
Merci. J’étais inquiet de voir apparaître cowork, qui peut même faire office de serveur du simple fait de laisser le PC allumé, mais ça me rassure un peu, et j’arrive à me représenter comment tout cela pourrait évoluer à l’avenir, haha.
Comme cela a été évoqué sur X, apparemment si vous l’utilisez avec Docker, cela fonctionne aussi à condition de fournir de force le PID du démon Docker.
On peut enfin dire adieu à l’erreur EADDRINUSE ?
En ce moment, comme on développe toutes sortes de trucs via des agents et qu’on lance un peu tout n’importe comment, ça finit par se rentrer dedans entre eux et c’est vite le bazar haha
Mais le modèle lui-même change en quelques mois,
et il faut adapter les agents au modèle...
Le modèle n’évolue-t-il pas plus vite que le temps nécessaire pour concevoir une structure d’agents appropriée ?
Autrement dit, l’outil change avant même que les gens aient eu le temps de s’y habituer...
Je ne suis absolument pas développeur... mais je lui fais écrire un peu de code juste pour le plaisir de bidouiller avec l’IA, et sans même que je le demande, elle créait et conservait plein de code de test ; donc c’était pour cette raison.
Quand je lui ai demandé à quoi ça servait au juste, elle m’a répondu que c’était nécessaire quand elle écrit du code et qu’il ne fallait pas les supprimer.
Gemini aussi est bloqué. Claude aussi, visiblement.
Mais si on paie pour utiliser l’API, il n’y a pas de problème.
Je ne comprends pas l’idée de certains étrangers selon laquelle s’authentifier via oauth sur un service tiers pour l’utiliser à bas prix avec un abonnement moins cher ne poserait aucun problème.
Les humains aussi choisissent mal au hasard. Il ne devrait pas y avoir de motif, mais le fait d’essayer délibérément d’éviter les motifs peut aussi être considéré comme un motif.
Il n’y a pas de résultats mesurant la consommation réelle de tokens sur une tâche unique, et il s’agit simplement d’une supposition selon laquelle l’utilisation de magpie réduirait les nouvelles tentatives à ce point.
Intéressant. Avez-vous des projets d’évolution pour la suite ?
Waouh, hahaha
C’est vrai… dès qu’on utilise un encodeur de vision, même un modèle 1B bouffe 9 Go de VRAM.
Je me demande si Sam Altman n’est pas un sociopathe reptilien.
« Le fait de fabriquer des objets physiques de ses propres mains apporte une transformation intérieure »
J’ai une RTX Pro 6000 (96 Go, en pratique 94 Go), mais le modèle 122B ne se charge pas avec ollama. J’imagine que c’est à cause de la partie intégrant le vision transformer, puisque c’est un modèle vision. Le modèle GPT OSS 120b, lui, se charge largement sans problème.
Il faut l’exécuter avec un serveur
llama.cppbasé sur CUDA pour obtenir de bonnes performances.Merci. J’étais inquiet de voir apparaître cowork, qui peut même faire office de serveur du simple fait de laisser le PC allumé, mais ça me rassure un peu, et j’arrive à me représenter comment tout cela pourrait évoluer à l’avenir, haha.
Comme cela a été évoqué sur X, apparemment si vous l’utilisez avec Docker, cela fonctionne aussi à condition de fournir de force le PID du démon Docker.
https://github.com/vercel-labs/portless/issues/61
Article utile.
On peut enfin dire adieu à l’erreur EADDRINUSE ?
En ce moment, comme on développe toutes sortes de trucs via des agents et qu’on lance un peu tout n’importe comment, ça finit par se rentrer dedans entre eux et c’est vite le bazar haha
Mais le modèle lui-même change en quelques mois,
et il faut adapter les agents au modèle...
Le modèle n’évolue-t-il pas plus vite que le temps nécessaire pour concevoir une structure d’agents appropriée ?
Autrement dit, l’outil change avant même que les gens aient eu le temps de s’y habituer...
Je ne suis absolument pas développeur... mais je lui fais écrire un peu de code juste pour le plaisir de bidouiller avec l’IA, et sans même que je le demande, elle créait et conservait plein de code de test ; donc c’était pour cette raison. Quand je lui ai demandé à quoi ça servait au juste, elle m’a répondu que c’était nécessaire quand elle écrit du code et qu’il ne fallait pas les supprimer.
Gemini aussi est bloqué. Claude aussi, visiblement.
Mais si on paie pour utiliser l’API, il n’y a pas de problème.
Je ne comprends pas l’idée de certains étrangers selon laquelle s’authentifier via oauth sur un service tiers pour l’utiliser à bas prix avec un abonnement moins cher ne poserait aucun problème.
Oh... je crois que c'est vrai.
Les humains aussi choisissent mal au hasard. Il ne devrait pas y avoir de motif, mais le fait d’essayer délibérément d’éviter les motifs peut aussi être considéré comme un motif.
Il n’y a pas de résultats mesurant la consommation réelle de tokens sur une tâche unique, et il s’agit simplement d’une supposition selon laquelle l’utilisation de magpie réduirait les nouvelles tentatives à ce point.
La comparaison du temps de compilation est étrange. Pourquoi comparer les ms/token ?
Je pense qu’il faudrait remettre en ordre la chronologie de cette affaire. On dit aussi qu’OpenAI était en pleine négociation contractuelle, non ?
Je vous lis toujours avec beaucoup d’intérêt, merci.