Points forts de Llama 3.1 405B sur Cerebras Inference
- Génération de 969 tokens de sortie par seconde, soit 12 fois plus rapide que les meilleurs résultats sur GPU
- Temps jusqu’au premier token de 240 ms, plus court que pour la plupart des API
- Prise en charge d’une longueur de contexte de 128K, avec des performances record
- Poids en 16 bits, pour conserver la précision du modèle complet
- Disponibilité générale prévue au premier trimestre 2025, à 6 $ par million de tokens d’entrée et 12 $ par million de tokens de sortie
L’IA de frontière à vitesse instantanée
- Cette année, Cerebras a poussé Llama 3.1 8B et 70B à plus de 2 000 tokens par seconde
- Les modèles de frontière comme GPT-4o, Claude 3.5 Sonnet et Llama 3.1 405B n’avaient jamais dépassé 200 tokens par seconde sur GPU, ASIC ou dans le cloud
- Cerebras Inference résout ce problème et permet à Llama 3.1 405B d’exprimer pleinement ses performances avec un contexte de 128K
- Le système établit un nouveau record avec 969 tokens de sortie par seconde sur un prompt de 1 000 tokens
- Sur un prompt d’entrée de 100 000 tokens, il atteint 539 tokens/s, soit 11 fois plus rapide que Fireworks et 44 fois plus rapide qu’AWS
Une latence optimale
- Le temps jusqu’au premier token est l’un des indicateurs les plus importants dans les applications réelles
- Avec 240 millisecondes, Cerebras offre le temps jusqu’au premier token le plus rapide de toutes les plateformes exécutant Llama 3.1-405B
- Ce temps de réponse, bien inférieur à celui des solutions basées sur GPU, améliore nettement l’expérience utilisateur
Disponibilité
- Cerebras Inference pour Llama 3.1-405B est actuellement en phase d’essai chez des clients, avec une disponibilité générale prévue au premier trimestre 2025
- Le tarif de sortie est 20 % moins cher qu’AWS, Azure et GCP
Le modèle ouvert est le plus rapide
- Grâce à l’approche ouverte de Meta et à la technologie d’inférence innovante de Cerebras, Llama 3.1-405B s’exécute plus de 10 fois plus vite que les modèles de frontière fermés
- Il fournit une base adaptée aux applications vocales, vidéo et de raisonnement
1 commentaires
Avis sur Hacker News
Il est difficile de dépasser 100 tok/s en déployant le modèle Llama 3.1 70b sur un cluster de 8x H100
Je ne suis pas certain que la comparaison de latence soit équitable
Fournir un débit élevé avec une bonne latence nécessite un surprovisionnement important
Avec les modèles de la génération actuelle, le RAG, les systèmes multi-agents et les interpréteurs de code, la latence du modèle devient le goulot d’étranglement
Les puces Cerebras utilisent un wafer entier et n’intègrent que 44 Go de SRAM
Il existe une liste d’attente pour essayer l’API
Je pense qu’il est très probable que Nvidia rachète Cerebras
Il est impressionnant de constater que de nouveaux matériels permettent encore des gains de performance
J’aimerais voir une comparaison en tokens/s/watt
Aucune mention du concurrent Groq
Je me demande combien coûte la fourniture du service avec une telle latence