1 points par GN⁺ 2024-02-21 | 1 commentaires | Partager sur WhatsApp

1 commentaires

 
GN⁺ 2024-02-21
Commentaires Hacker News
  • Résumé du premier commentaire :

      • La démo technique est très impressionnante, et le fait qu'il s'agisse d'une vraie démo ouverte que tout le monde peut tester sans créer de compte est une bonne chose.
      • Voir la génération de tokens à une vitesse bien plus rapide que ce que l'on voyait jusqu'ici paraît surréaliste.
      • Il est étonnant qu'elle n'ait pas été rachetée par de grands acteurs comme Microsoft, Apple ou Google.
  • Résumé du deuxième commentaire :

      • Le principal point faible des LPUs de Groq est qu'elles n'ont pas de HBM du tout, et ne disposent que d'une quantité infime de SRAM ultrarapide (230 MiB).
      • Il faut 256 LPUs (l'équivalent de 4 racks de serveurs) pour servir un seul modèle.
      • C'est utile s'il y a beaucoup de clients sur un modèle unique, mais moins pratique lorsque plusieurs modèles et du fine-tuning sont nécessaires.
  • Résumé du troisième commentaire :

      • La démo est impressionnante, mais il faut rester prudent sans benchmark.
      • Il existe des moyens d'accélérer un modèle au détriment de la qualité, comme la quantification.
      • On espère que les progrès des tokens/seconde des LLM suivront ceux des instructions/seconde des CPU, qui ont évolué il y a plusieurs décennies.
  • Résumé du quatrième commentaire :

      • Un membre de Groq dit qu'il suffit de lui poser des questions.
      • Il précise qu'une partie de la chaîne de compilation de Groq est écrite en Haskell.
  • Résumé du cinquième commentaire :

      • La démo est impressionnante, mais les exigences matérielles et le coût la rendent accessible surtout aux entreprises de grande taille.
      • Il se demande à quel moment les prix deviendront plus bas pour les passionnés.
      • La démo de CNN Vapi était aussi impressionnante, mais d'autres services permettent une conversation naturelle grâce à une latence audio plus faible.
      • Il partage son avis selon lequel il faut atteindre un certain seuil de tokens/seconde pour une interaction en temps réel, et qu'au-delà de ce seuil la vitesse peut être utile pour la communication entre IA.
  • Résumé du sixième commentaire :

      • Il s'interroge sur ce qui rend cette technologie si impressionnante et sur pourquoi on ne pourrait pas augmenter davantage la puissance de calcul pour améliorer la réactivité.
      • En citant un graphique de NVIDIA, il signale que le H100 exécute des modèles de 70B à plus de 500 tokens/seconde.
  • Résumé du septième commentaire :

      • Il relève que la page ne fonctionne pas si une certaine police n'est pas accessible et que la requête doit être réessayée à plusieurs reprises.
      • Il a découvert ce problème parce que son navigateur bloque par défaut ce type de traceur.
  • Résumé du huitième commentaire :

      • Il demande si cette technologie est liée au modèle Grok proposé par x.ai.
      • Après l'avoir testée, il dit être très impressionné par la vitesse.
  • Résumé du neuvième commentaire :

      • Il admire Groq et Mixtral.
      • Il a testé une démo générant un fichier YAML GitLab CI avec un prompt précis.
  • Résumé du dixième commentaire :

      • La performance de l'API de Groq semble être également à ce niveau.
      • Il partage qu'il atteint de manière constante plus de 400 tokens/seconde grâce à des benchmarks de performance dans le temps.