3 points par GN⁺ 2024-11-20 | 1 commentaires | Partager sur WhatsApp

Points forts de Llama 3.1 405B sur Cerebras Inference

  • Génération de 969 tokens de sortie par seconde, soit 12 fois plus rapide que les meilleurs résultats sur GPU
  • Temps jusqu’au premier token de 240 ms, plus court que pour la plupart des API
  • Prise en charge d’une longueur de contexte de 128K, avec des performances record
  • Poids en 16 bits, pour conserver la précision du modèle complet
  • Disponibilité générale prévue au premier trimestre 2025, à 6 $ par million de tokens d’entrée et 12 $ par million de tokens de sortie

L’IA de frontière à vitesse instantanée

  • Cette année, Cerebras a poussé Llama 3.1 8B et 70B à plus de 2 000 tokens par seconde
  • Les modèles de frontière comme GPT-4o, Claude 3.5 Sonnet et Llama 3.1 405B n’avaient jamais dépassé 200 tokens par seconde sur GPU, ASIC ou dans le cloud
  • Cerebras Inference résout ce problème et permet à Llama 3.1 405B d’exprimer pleinement ses performances avec un contexte de 128K
  • Le système établit un nouveau record avec 969 tokens de sortie par seconde sur un prompt de 1 000 tokens
  • Sur un prompt d’entrée de 100 000 tokens, il atteint 539 tokens/s, soit 11 fois plus rapide que Fireworks et 44 fois plus rapide qu’AWS

Une latence optimale

  • Le temps jusqu’au premier token est l’un des indicateurs les plus importants dans les applications réelles
  • Avec 240 millisecondes, Cerebras offre le temps jusqu’au premier token le plus rapide de toutes les plateformes exécutant Llama 3.1-405B
  • Ce temps de réponse, bien inférieur à celui des solutions basées sur GPU, améliore nettement l’expérience utilisateur

Disponibilité

  • Cerebras Inference pour Llama 3.1-405B est actuellement en phase d’essai chez des clients, avec une disponibilité générale prévue au premier trimestre 2025
  • Le tarif de sortie est 20 % moins cher qu’AWS, Azure et GCP

Le modèle ouvert est le plus rapide

  • Grâce à l’approche ouverte de Meta et à la technologie d’inférence innovante de Cerebras, Llama 3.1-405B s’exécute plus de 10 fois plus vite que les modèles de frontière fermés
  • Il fournit une base adaptée aux applications vocales, vidéo et de raisonnement

1 commentaires

 
GN⁺ 2024-11-20
Avis sur Hacker News
  • Il est difficile de dépasser 100 tok/s en déployant le modèle Llama 3.1 70b sur un cluster de 8x H100

    • Je me demande comment ils ont atteint cette vitesse
    • Il semble qu’il faudrait de l’inférence multinœud ou un mécanisme d’attention sparse
  • Je ne suis pas certain que la comparaison de latence soit équitable

    • La latence inclut le débit de traitement du contexte/prompt, le temps d’attente d’accès au matériel et d’autres surcoûts API
    • Il est très probable que les chiffres de Cerebras n’incluent presque aucune attente
  • Fournir un débit élevé avec une bonne latence nécessite un surprovisionnement important

    • On ne sait pas clairement si la latence inclut le chargement du modèle
    • Pour des traitements par lots, on peut utiliser la machine Cerebras à 100 % et maintenir en continu 1k tokens/s
  • Avec les modèles de la génération actuelle, le RAG, les systèmes multi-agents et les interpréteurs de code, la latence du modèle devient le goulot d’étranglement

    • Le débit de tokens des modèles de la classe 405B ouvre la voie à de nombreuses expériences interactives
  • Les puces Cerebras utilisent un wafer entier et n’intègrent que 44 Go de SRAM

    • Il faut 19 puces pour faire tenir un modèle 405B en précision bf16
    • En coût de fabrication de wafer, cela revient à utiliser plus de 1 500 H100
  • Il existe une liste d’attente pour essayer l’API

    • Il faut rester sceptique face aux affirmations d’une entreprise quand il n’est pas possible d’acheter le service
  • Je pense qu’il est très probable que Nvidia rachète Cerebras

  • Il est impressionnant de constater que de nouveaux matériels permettent encore des gains de performance

    • Je me demande où se situe la limite des améliorations des performances d’entraînement via le matériel
  • J’aimerais voir une comparaison en tokens/s/watt

  • Aucune mention du concurrent Groq

  • Je me demande combien coûte la fourniture du service avec une telle latence

    • Le coût déterminera à quel point cela pourra être adopté largement
    • Je me demande si cela vise uniquement les entreprises qui ont réellement besoin de cette latence, ou si cela peut être déployé plus généralement