Comparer 4 agents de vibe coding avec le même prompt (Lovable, Gemini, Rork, Flowith)

(stdy.blog)

13 points par spilist2 2025-05-26 | 2 commentaires | Partager sur WhatsApp

J’en ai profité pour tester des services que je venais de découvrir, en faisant du vibe coding avec 4 agents aux points forts différents. (J’avais déjà comparé en profondeur, avec test à l’usage, des services de prototypage IA (v0, Lovable, Replit, Bolt, Tempo, Mocha), mais cette fois je les ai comparés en leur faisant implémenter la même chose à partir du même prompt)

Lovable : l’un des leaders des services de prototypage IA. Il produit rapidement des interfaces élégantes. Déploiement public immédiat possible
Gemini App Build : utilisable dans Google AI Studio. Permet de créer gratuitement des apps qui appellent l’API Gemini. Pas de limite sur le nombre de chats
Rork : service de vibe coding intégrant en premier un simulateur d’application mobile. Test possible directement sur smartphone via l’app
Flowith Neo : un super-agent qui tourne 24 h/24. Il peut effectuer en multi-agents diverses tâches, dont le code

Pour tous, j’ai utilisé le même point de départ : le handout d’un atelier d’entraînement aux compétences pour demander de l’aide, que j’avais développé et animé avec des connaissances, puis je leur ai demandé de « créer une application de simulation permettant de s’entraîner seul ».

J’ai évalué chaque service, de façon très subjective, selon 7 critères (sur un total de 70 points)

Processus d’implémentation
- Efficacité : ai-je peu besoin d’intervenir pour obtenir une app fonctionnelle ?
- Praticité : est-ce facile à tester et à déboguer ?
- Vitesse : l’implémentation est-elle rapide ?
- Coût : le coût de réalisation est-il faible ?
Résultat de l’implémentation
- Fonctionnalité : les fonctions répondent-elles aux attentes et sont-elles riches ?
- Utilisabilité : l’UI/UX de l’app créée est-elle intuitive et agréable ?
- Efficacité réelle : aide-t-elle vraiment à s’entraîner à demander de l’aide ?

Résumé des résultats de l’évaluation

(Le blog contient une image récapitulative sous forme de tableau, ainsi que des captures détaillées du fonctionnement de chaque service)

Dans l’ensemble :

Processus d’implémentation : Lovable > Gemini >> Rork >>>> Flowith
Résultat de l’implémentation : Lovable ~= Flowith > Gemini = Rork

En combien de tours cela a-t-il été terminé ?

Lovable et Gemini ont tous deux terminé dès le premier tour (Gemini a corrigé seul un bug avant de finaliser)
Rork a été finalisé au 3e tour après 2 corrections de bugs (avec copier-coller des messages d’erreur)
Flowith n’a pas été finalisé, malgré plusieurs interventions manuelles et ses propres tentatives de correction. En revanche, il affichait des previews en continu, ce qui permettait de voir les résultats intermédiaires

Impressions

Il y a peut-être un peu de préférence personnelle, mais globalement Lovable écrase la concurrence. Cela dit, chacun avait bien ses points forts
- Gemini : l’expérience de tester directement des appels LLM est particulière
- Rork : tester une app mobile directement sur le téléphone donne un vrai ressenti “app”
- Flowith : il fait réellement de la recherche complémentaire. S’il avait simplement réussi à livrer le résultat final…
Flowith, que j’attendais beaucoup, était impressionnant sur les résultats intermédiaires, mais pas encore au niveau pour devenir un outil principal de vibe coding. Surtout, comme il fonctionne au crédit plutôt qu’au message en chat, le coût devient bien trop élevé
À noter : l’évaluation du processus d’implémentation ne porte pas seulement sur cette expérience, mais sur mon expérience globale. C’était ma première fois avec Rork, j’ai utilisé Lovable à plusieurs reprises, et j’ai construit trois apps avec Gemini et Flowith

Évaluation détaillée

🥇 1er Lovable - 63 points (terminé au premier tour)

Processus d’implémentation

Efficacité : 9
Praticité : 9
Vitesse : 10
Coût : 7

Il fait tout simplement tout bien. Son implémentation du premier tour a été la plus rapide et la plus propre. Le débogage automatique à partir des messages d’erreur est pratique. Les retouches visuelles gratuites et la correction de bugs gratuite sont un vrai plus. Les modifications de code sont possibles directement sur place en version payante, ou gratuitement via intégration GitHub. Le déploiement public immédiat est également excellent.

Résultat de l’implémentation

Fonctionnalité : 9
Utilisabilité : 10
Efficacité réelle : 9

L’UI est, comme prévu, très jolie et difficile à prendre en défaut. Les fonctionnalités ne sont pas très riches, mais l’interprétation du handout est créative et intuitive, avec tout ce qu’il fallait.

Le fait de devoir toujours suivre les trois étapes de demande d’aide est un inconvénient. La simulation reposait aussi sur des règles simples, mais c’était approprié. Je me suis dit qu’il suffirait d’y ajouter les meilleurs éléments vus dans les autres services, y compris les LLM.

🥈 2e Gemini App Build - 56 points (terminé au premier tour après correction autonome d’un bug)

Processus d’implémentation

Efficacité : 7
Praticité : 8
Vitesse : 8
Coût : 10

Son grand atout, c’est le chat gratuit et la possibilité d’appeler Gemini gratuitement. Il produit déjà quelque chose d’assez bon dès le premier tour, et corrige lui-même les bugs qui apparaissent juste après la génération.

En multi-tour, il est plutôt moins bon. Le débogage automatique à partir des messages d’erreur est possible, mais il n’a pas réussi à corriger jusqu’au bout le bug en question, si bien que j’ai fini par intervenir manuellement. Il n’y a pas d’édition visuelle, mais la modification du code y est la plus pratique. Son point faible est qu’il faut Cloud Run pour déployer.

Résultat de l’implémentation

Fonctionnalité : 8
Utilisabilité : 6
Efficacité réelle : 9

L’UI est clairement rigide. Elle rappelle les outils Google, et le contenu du handout est reproduit tel quel plutôt que réinterprété de manière créative. Le fait de devoir toujours passer par les trois étapes est aussi peu pratique.

Mais l’expérience de discuter avec l’IA dans la simulation reste vraiment unique et efficace, ce qui lui vaut des points supplémentaires. C’est le seul à proposer ça.

🥉 3e Rork - 46 points (terminé au 3e tour)

Processus d’implémentation

Efficacité : 7
Praticité : 5
Vitesse : 7
Coût : 4

Son point fort, c’est de produire une vraie app mobile. Sur Android comme sur iPhone, l’installation via Expo Go et les tests sur téléphone ont bien fonctionné. Le choix du modèle d’implémentation est possible, notamment Claude Sonnet 4. Il y a un débogage automatique, et il corrige réellement bien les bugs.

En revanche, on ne peut pas modifier le code, il n’y a pas d’édition visuelle, et surtout le débogage est payant, ce qui pose problème. Honnêtement, corriger gratuitement l’app boguée qu’il a lui-même générée dès le premier tour ne serait pas abusif, non ?

Résultat de l’implémentation

Fonctionnalité : 8
Utilisabilité : 7
Efficacité réelle : 8

Il a été le seul à tout produire en anglais. L’UI était rigide et peu esthétique. Une bonne partie du contenu du handout apparaissait telle quelle. Malgré cela, il y avait bien tout le nécessaire, et le fait de pouvoir lancer séparément les trois fonctions était pratique.

La simulation prenait la forme d’un questionnaire à choix multiples avec évaluation, ce qui m’a semblé bien adapté à un entraînement débutant. En revanche, il y avait vraiment beaucoup trop de texte.

4e Flowith Neo - 35 points (inachevé après n tours)

Processus d’implémentation

Efficacité : 1
Praticité : 3
Vitesse : 3
Coût : 1

La planification enrichie par la recherche web est bonne. Mais même s’il travaille énormément, il n’a pas réussi à terminer une seule des trois apps. Après ses propres exécutions, il replannifie, tente un bugfix, puis échoue encore. Comme la facturation n’est pas par message, il enchaîne seul les essais et échecs en consommant énormément de crédits, ce qui est frustrant.

À chaque étape intermédiaire, il déploie une version sur une URL publique. Mais il arrive souvent que les anciennes versions soient meilleures. Quand l’implémentation intermédiaire échoue, il faut relancer manuellement. Le code n’est visible qu’après téléchargement, et bien sûr les modifications ne sont possibles que par prompt. Pas d’édition visuelle non plus.

Résultat de l’implémentation

Fonctionnalité : 9
Utilisabilité : 10
Efficacité réelle : 7

La planification initiale et les previews intermédiaires étaient très impressionnantes. Au final, il n’a pas réussi à livrer une version terminée, et les éléments variaient selon les versions, mais il y avait beaucoup d’idées intéressantes à reprendre pour d’autres apps. Par exemple, faire une évaluation plus rigoureuse en amont, ou proposer un entraînement selon différents scénarios et niveaux de difficulté. L’UI était aussi jolie, à part quelques éléments étranges, et c’était l’outil le plus minutieux.

2 commentaires

princox 2025-05-28

J’utilise bolt.new, et j’aimerais bien comparer avec celui-ci pour voir ce qu’il vaut.

spilist2 2025-05-29

Moi aussi, en juin, je pense que j’utiliserai beaucoup Bolt à cause du hackathon Bolt (dotation totale de 1 million de dollars) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ . Il faudra que je fasse la comparaison après ça haha

Comparer 4 agents de vibe coding avec le même prompt (Lovable, Gemini, Rork, Flowith)

Résumé des résultats de l’évaluation

Évaluation détaillée

🥇 1er Lovable - 63 points (terminé au premier tour)

🥈 2e Gemini App Build - 56 points (terminé au premier tour après correction autonome d’un bug)

4e Flowith Neo - 35 points (inachevé après n tours)

À lire aussi

2 commentaires