- Ollama Turbo permet d’exécuter rapidement de grands modèles open source sur du matériel de datacenter hautes performances (20 $/mois)
- Il permet d’exécuter des grands modèles de manière rapide et efficace tout en réutilisant l’app, le CLI, l’API ainsi que les bibliothèques JavaScript/Python d’Ollama
- Actuellement en préversion, il prend en charge les modèles ouverts d’OpenAI gpt-oss-20b et gpt-oss-120b
- En mode Turbo, l’historique des requêtes n’est ni stocké ni conservé dans les logs sur le serveur
- L’infrastructure matérielle n’est exploitée que dans des data centers américains, avec des limites d’usage horaires et quotidiennes, et un système de facturation au volume d’utilisation est prévu prochainement
Aucun commentaire pour le moment.