La démo technique est très impressionnante, et le fait qu'il s'agisse d'une vraie démo ouverte que tout le monde peut tester sans créer de compte est une bonne chose.
Voir la génération de tokens à une vitesse bien plus rapide que ce que l'on voyait jusqu'ici paraît surréaliste.
Il est étonnant qu'elle n'ait pas été rachetée par de grands acteurs comme Microsoft, Apple ou Google.
Résumé du deuxième commentaire :
Le principal point faible des LPUs de Groq est qu'elles n'ont pas de HBM du tout, et ne disposent que d'une quantité infime de SRAM ultrarapide (230 MiB).
Il faut 256 LPUs (l'équivalent de 4 racks de serveurs) pour servir un seul modèle.
C'est utile s'il y a beaucoup de clients sur un modèle unique, mais moins pratique lorsque plusieurs modèles et du fine-tuning sont nécessaires.
Résumé du troisième commentaire :
La démo est impressionnante, mais il faut rester prudent sans benchmark.
Il existe des moyens d'accélérer un modèle au détriment de la qualité, comme la quantification.
On espère que les progrès des tokens/seconde des LLM suivront ceux des instructions/seconde des CPU, qui ont évolué il y a plusieurs décennies.
Résumé du quatrième commentaire :
Un membre de Groq dit qu'il suffit de lui poser des questions.
Il précise qu'une partie de la chaîne de compilation de Groq est écrite en Haskell.
Résumé du cinquième commentaire :
La démo est impressionnante, mais les exigences matérielles et le coût la rendent accessible surtout aux entreprises de grande taille.
Il se demande à quel moment les prix deviendront plus bas pour les passionnés.
La démo de CNN Vapi était aussi impressionnante, mais d'autres services permettent une conversation naturelle grâce à une latence audio plus faible.
Il partage son avis selon lequel il faut atteindre un certain seuil de tokens/seconde pour une interaction en temps réel, et qu'au-delà de ce seuil la vitesse peut être utile pour la communication entre IA.
Résumé du sixième commentaire :
Il s'interroge sur ce qui rend cette technologie si impressionnante et sur pourquoi on ne pourrait pas augmenter davantage la puissance de calcul pour améliorer la réactivité.
En citant un graphique de NVIDIA, il signale que le H100 exécute des modèles de 70B à plus de 500 tokens/seconde.
Résumé du septième commentaire :
Il relève que la page ne fonctionne pas si une certaine police n'est pas accessible et que la requête doit être réessayée à plusieurs reprises.
Il a découvert ce problème parce que son navigateur bloque par défaut ce type de traceur.
Résumé du huitième commentaire :
Il demande si cette technologie est liée au modèle Grok proposé par x.ai.
Après l'avoir testée, il dit être très impressionné par la vitesse.
Résumé du neuvième commentaire :
Il admire Groq et Mixtral.
Il a testé une démo générant un fichier YAML GitLab CI avec un prompt précis.
Résumé du dixième commentaire :
La performance de l'API de Groq semble être également à ce niveau.
Il partage qu'il atteint de manière constante plus de 400 tokens/seconde grâce à des benchmarks de performance dans le temps.
1 commentaires
Commentaires Hacker News
Résumé du premier commentaire :
Résumé du deuxième commentaire :
Résumé du troisième commentaire :
Résumé du quatrième commentaire :
Résumé du cinquième commentaire :
Résumé du sixième commentaire :
Résumé du septième commentaire :
Résumé du huitième commentaire :
Grokproposé par x.ai.Résumé du neuvième commentaire :
Résumé du dixième commentaire :