18 points par happyhaki 19 일 전 | 2 commentaires | Partager sur WhatsApp

oh-my-free-models (omfm) est un proxy local qui route les agents de code vers le modèle le plus rapide du moment parmi plusieurs providers gratuits. Il suffit de remplacer le baseURL d’un agent compatible OpenAI ou Anthropic par localhost et de sélectionner quelques modèles gratuits : même lorsque la latence, les rate limits ou les quotas fluctuent, omfm continue à faire transiter les requêtes.

Pourquoi est-ce nécessaire ?

Les agents de code en free tier ont l’air corrects sur le papier, mais en pratique, ils se bloquent à quatre endroits.

  • Les rate limits interrompent le travail en cours. Les modèles gratuits d’OpenRouter ou de NVIDIA renvoient des 429 sans avertissement. Une exécution qui fonctionnait bien peut s’arrêter sur un simple appel d’outil, et quelqu’un doit relancer manuellement.

  • La latence varie fortement selon l’heure. Un même modèle gratuit peut être rapide le matin puis devenir inutilisable l’après-midi. Comme cela dépend de l’heure et de la région, on ne peut pas définir à l’avance « le modèle rapide ». Il n’existe que « le modèle rapide à cet instant précis ».

  • Quand le quota est épuisé, il faut changer de provider à la main. Si le quota gratuit d’un provider est consommé, il faut modifier soi-même la clé et le baseURL. La configuration de l’agent ne s’adapte pas d’elle-même à ce changement.

  • Le catalogue gratuit change souvent. Des modèles apparaissent, disparaissent, sont marqués deprecated ou commencent discrètement à renvoyer des erreurs. Ce n’est pas le dashboard qui vous le dit : il faut se heurter au problème pour le découvrir.

Fonctionnalités principales

  • Routage des requêtes vers le modèle actif ayant actuellement la latence la plus faible dans le pool de modèles gratuits sélectionné
  • Mise en cooldown pendant environ 10 minutes des modèles qui renvoient des erreurs de rate limit ou de quota comme 429/402
  • Fournit des endpoints compatibles OpenAI /v1 et compatibles Anthropic /anthropic
  • Utilisable avec des clients compatibles OpenAI comme OpenClaw, Hermes Agent ou OpenCode via url=http://localhost:4567/v1, model=omfm
  • Avec Claude Code, il est possible de l’utiliser en remplaçant l’Anthropic base URL par http://localhost:4567/anthropic
  • Séparation possible des pools de modèles par usage avec les groupes omfm/fast, omfm/balanced, omfm/capable
  • Fournit une CLI avec omfm model, omfm start, omfm status, omfm doctor, omfm usage

C’est particulièrement utile avec des agents de code locaux ou en CLI qui acceptent un endpoint compatible OpenAI, comme OpenClaw ou Hermes Agent. Sans toucher à la configuration de l’agent, il suffit de remplacer le base URL et le modèle par ceux d’omfm ; en arrière-plan, la mesure de latence des modèles gratuits, l’exclusion des modèles en échec et le basculement entre providers se font automatiquement.

2 commentaires

 
channprj 14 일 전

Projet intéressant. Ça m’a brièvement fait penser à 9router, mais cela semble plus spécialisé dans les free models, ce qui le rend intéressant. Merci pour ce bon produit.

https://9router.com

 
happyhaki 14 일 전

Oh, c’est intéressant. Merci du partage. J’avais pensé à LiteLLM, mais à partir du moment où on ajoute des fournisseurs payants à omfm, j’ai l’impression que ça ne change plus grand-chose, donc je préfère rester uniquement sur des modèles gratuits.