Lancement de l’API de recherche web d’Ollama

(ollama.com)

13 points par GN⁺ 2025-09-29 | 3 commentaires | Partager sur WhatsApp

Ollama publie en API une fonctionnalité de recherche d’informations web récentes, afin de réduire les hallucinations des modèles et d’améliorer leur précision
Même les comptes gratuits incluent un quota gratuit de recherche généreux, et les utilisateurs intensifs peuvent bénéficier de limites plus élevées via Ollama Cloud
Basée sur une API REST, elle s’intègre aux bibliothèques Python et JavaScript, permettant à des modèles comme OpenAI gpt-oss d’effectuer des travaux de recherche de longue durée
Les fonctions web_search et web_fetch renvoient des résultats de plusieurs milliers de tokens et prennent en charge l’intégration avec divers outils comme Cline, Codex et Goose via des serveurs MCP
Il est ainsi possible de construire directement des agents de recherche, ce qui élargit considérablement la capacité des modèles d’IA à interagir avec des données récentes

Présentation de la fonctionnalité de recherche web d’Ollama

Ollama a dévoilé une API de recherche web, offrant un environnement dans lequel les modèles d’IA peuvent accéder immédiatement aux informations web les plus récentes
Cela permet de réduire les hallucinations et d’obtenir une meilleure précision
Les utilisateurs individuels bénéficient d’un quota gratuit de recherche généreux, et ce quota peut être étendu via un abonnement au cloud Ollama en cas de besoins plus élevés
Le service est proposé sous forme d’API REST et permet une intégration avancée avec des outils via des bibliothèques Python et JavaScript
Grâce à cette architecture, différents modèles comme gpt-oss peuvent mener des recherches et travaux d’exploration sur la durée

Exemples d’utilisation de l’API

Avec une clé API émise depuis un compte Ollama, il est possible d’appeler le service via cURL, avec ollama.web_search() en Python et client.webSearch() en JavaScript
Les résultats sont renvoyés dans une structure JSON contenant le titre, l’URL et un résumé du contenu
L’API web_fetch permet de récupérer, pour une URL donnée, le contenu de la page jusqu’au texte principal et à la liste des liens

Implémentation d’un agent de recherche basé sur la recherche web

L’API Ollama peut être combinée à des modèles comme Qwen3 et gpt-oss pour développer des agents de recherche multi-tour automatisés
Le code d’exemple automatise le processus recherche → raisonnement → synthèse des résultats à l’aide du modèle Qwen3:4B
En s’appuyant sur les résultats de recherche, il passe par un processus de "Thinking" et exploite de manière répétée les résultats des appels aux outils de recherche et de fetch afin de mener des scénarios de recherche ou d’exploration complexes
La nouvelle mise à niveau du moteur Ollama inclut une gestion mémoire plus précise, des optimisations GPU / multi-GPU, des améliorations de performances ainsi qu’un support renforcé des modèles de vision (multimodaux)

Modèles recommandés et indications de performances

Recommandation de modèles cloud dotés de solides capacités d’utilisation d’outils, par exemple qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud
Les outils de recherche et de fetch pouvant renvoyer des données sur plusieurs milliers de tokens, il est recommandé d’augmenter la longueur de contexte du modèle à environ 32000 tokens

Fonction de fetch de pages web individuelles

En plus de la recherche web, une API / fonction est fournie pour fetcher directement le texte et la structure de liens d’une page web spécifique
En Python, JavaScript ou via cURL, il suffit de passer une url en argument pour extraire le title, le content, les liens associés, etc.
Des exemples de code plus détaillés sont disponibles dans le dépôt GitHub officiel

Intégration des outils et des agents

web_search et web_fetch renvoient des données de plusieurs milliers de tokens, et il est recommandé d’étendre le contexte du modèle à 32K ou plus
Grâce à la prise en charge des serveurs MCP, une intégration directe est possible avec des environnements de développement IA comme Cline, Codex et Goose
Des exemples de code Python et JavaScript sont fournis dans le dépôt GitHub officiel

Pour commencer

La recherche web est incluse par défaut avec un compte Ollama gratuit, et des volumes d’utilisation plus élevés sont accessibles via un abonnement payant
Il suffit de créer un compte sur le site d’Ollama, de générer une clé API et d’utiliser immédiatement le service

3 commentaires

shakespeares 2025-10-06

J’ai l’impression que la version gratuite d’ollama ne sera pas vraiment à la hauteur pour un usage réel...

slowandsnow 2025-09-30

La page des tarifs n’explique pas non plus les quotas, donc j’ai du mal à juger si ça vaut le coup.

GN⁺ 2025-09-29

Avis sur Hacker News

Je me demande quel moteur de recherche ils utilisent en interne, je leur ai aussi demandé sur Twitter https://twitter.com/simonw/status/1971210260015919488 Le point particulièrement important, c’est la licence des résultats de recherche. Peut-on les stocker ou les redistribuer ? Les règles varient selon les fournisseurs.
- Nous travaillons avec des fournisseurs de recherche et garantissons un environnement sans aucune politique de conservation des données. Les résultats de recherche appartiennent à l’utilisateur et peuvent être utilisés librement. Il faut toutefois respecter les lois locales.
- Si on dit que c’est pour entraîner des modèles d’IA, alors on peut les utiliser comme on veut.
- Si les résultats de recherche ne sont qu’une simple liste de liens, je me demande même si le droit d’auteur s’applique réellement.
- C’est étrange de lancer une telle fonctionnalité sans même une politique de confidentialité. Je me demande si cela ne sert pas de cas de collaboration ou de customer story avec un partenaire VC ayant récemment investi. Je parierais sur Exa, soutenu au départ par YC et qui a levé 85 M$ en Series B. Bing serait trop coûteux pour être exploité librement sans partenariat avec Microsoft. J’espère qu’Ollama mettra rapidement à jour sa notice de confidentialité. Le siège étant en Californie, le CCPA s’applique ; même sans revenus, traiter seulement les données de 50 000 résidents californiens suffit https://oag.ca.gov/privacy/ccpa Si jamais le fournisseur backend sans conservation des données s’avère être Alibaba, je serais curieux de voir la réaction.
Je me demandais si Ollama était une entreprise, je ne savais même pas qu’ils avaient levé des fonds. Je pensais que c’était un utilitaire open source. Je me demande comment ils comptent monétiser les utilisateurs à l’avenir, je ne suis pas très optimiste.
- Les projets sortis récemment en totalement open source sont très rares ; la plupart reposent sur des dons ou sur du sponsoring d’entreprise, et j’ai l’impression que c’est encore plus rare dans l’IA.
- Ollama est géré à la manière de Docker par d’anciens employés de Docker.
- Ils ont lancé une plateforme d’hébergement il n’y a pas longtemps.
- Avant de voir ta réponse, je croyais que cet article parlait d’OpenAI.
J’aurais aimé avoir plus de détails sur la manière dont Ollama implémente cela. Je le voyais comme un outil open source et indépendant des plateformes, mais l’ambiance récente me fait penser le contraire, donc j’hésite.
- J’ai aussi envisagé d’ajouter à Ollama une fonctionnalité permettant de récupérer les résultats de recherche et le contenu des sites web via un navigateur headless, entre autres, mais je craignais la qualité des résultats et le blocage d’IP, puisque cela pourrait ressembler à un crawler. J’ai pensé que l’introduction d’une API hébergée serait la voie la plus rapide pour fournir des résultats, mais j’explore toujours les options locales. Idéalement, ce serait bien que l’utilisateur puisse, s’il le souhaite, utiliser ce type de recherche entièrement dans un environnement local.
- L’interface GUI n’est pas open source. Si vous voulez une application simple à utiliser, LMStudio peut être un meilleur choix (au moins ils ne prétendent pas être OSS), et ramalama ressemble aussi à ollama sur l’aspect conteneurisation des LLM. Sinon, on peut revenir aux « fondamentaux » avec llama.cpp ou vllm.
- J’ai l’impression que la manière dont Ollama est géré se dégrade de plus en plus ; j’ai perdu confiance et je l’ai supprimé de tous mes systèmes.
J’ai l’impression qu’Ollama prend une direction de plus en plus non locale, et que les performances sont aussi inférieures à celles de vLLM. Je veux faire tourner quelque chose comme open-webui via une API compatible OpenAI pour créer un environnement où les utilisateurs choisissent entre plusieurs LLM, et je me demande quelle alternative à Ollama conviendrait bien pour exploiter plusieurs RTX 3090 (de 1 à 5).
- J’ai entendu parler de Llamaswap ou de vllm.
Je ne savais pas qu’Ollama avait son propre service cloud. Le principe initial d’Ollama, ce n’était pas les modèles locaux ? Pourquoi payer 20 $ par mois pour utiliser cela avec des modèles plus petits et moins performants ? Autant utiliser une entreprise d’IA comme OpenAI ou Mistral, non ? Je ne vois pas pourquoi il faudrait même créer un compte juste pour utiliser des modèles sur mon ordinateur.
- Bonne question. Parmi les modèles pris en charge, beaucoup sont trop gros pour tourner sur les appareils de la plupart des gens. Ce n’est que le début, et grâce à nos relations avec les fournisseurs de modèles, Ollama peut aussi proposer les derniers modèles cloud. Ollama travaille avec les développeurs et vise à répondre à leurs besoins https://ollama.com/cloud
- On crée un compte pour utiliser leurs modèles hébergés ou exploiter des modèles en local via l’API Ollama. Je paie actuellement 100 $ pour Claude et 200 $ pour GPT-5, donc 20 $ est vraiment un prix très bas pour accéder à des modèles comme Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b, etc. Ce ne sont en aucun cas des modèles « petits » ou « peu performants ». Le fait de pouvoir connecter Codex à l’API Ollama pour utiliser des outils avec plusieurs modèles est aussi vraiment excellent.
- J’y vois une trajectoire continue vers des fonctionnalités monétisables. Ils ont construit la confiance et la marque grâce à l’open source et au travail gratuit, puis sont en train de basculer vers la monétisation.
- Il y a aussi des modèles qu’on ne peut pas faire tourner en local (gpt-oss-120b, deepseek, qwen3-coder 480b, etc.). C’est une manière de monétiser le succès d’Ollama.
- Même beaucoup de modèles « locaux » ont un volume de téléchargement important et sont lents sur du matériel ordinaire. L’avantage du cloud, c’est de pouvoir les évaluer à bas coût d’abord, puis décider ensuite de les télécharger en local. L’important, c’est le principe même de pouvoir vraiment faire tourner quelque chose en local. Je n’aime pas dépendre de technologies qu’on peut facilement me retirer ou bloquer.
C’est un peu un autre sujet, mais j’envisage de construire un « mini Google » chez moi pour un usage personnel. J’ai le sentiment que, quand j’ai réellement besoin de recherche, cela se résout dans la plupart des cas à l’intérieur d’environ 1 000 sites web. Explorer tout le web serait excessif pour mon usage. En gros, l’architecture serait : un crawler (scraper léger), un indexeur (conversion en texte et index inversé), du stockage (HTML et texte compressés), une couche de recherche (scoring TF-IDF ou à base d’embeddings), des mises à jour périodiques et une petite webUI pour naviguer. Je me demande si certains ont déjà utilisé un projet de ce genre ou tenté quelque chose de similaire.
- J’ai déjà regardé les dumps de Common Crawl, et 99,99 % du web n’était en réalité que pub, porno, spam, blogs sans intérêt, etc. Cela a peut-être une certaine valeur historique, culturelle ou littéraire, mais pour mes objectifs, cela ne sert presque à rien. Cela m’a convaincu que si je n’indexe de manière sélective que les pages web vraiment importantes, c’est tout à fait faisable même sur un simple laptop. Rien que Wikipédia fait environ 20 Go en compressé, donc si je n’extrais que les sujets qui m’intéressent vraiment, on tombe à moins de 200 Mo.
- YaCy (https://yacy.net) peut faire l’essentiel. En revanche, si vous crawlez beaucoup, Cloudflare peut bloquer rapidement votre IP.
- J’aime aussi beaucoup https://marginalia-search.com
- Drew DeVault avait essayé autrefois de construire quelque chose de similaire sous le nom SearchHut, puis a abandonné. Il a fini par laisser tomber en essayant de comprendre l’extension RUM de Postgres lien vers un thread HN mentionnant SearchHut
- Ce n’est pas exactement la même chose, mais moi aussi j’utilise Google CSE par domaine pour limiter les résultats à des sites adaptés à mes sujets d’intérêt. Je le lance directement avec un raccourci dans Alfred, ce qui me permet de chercher confortablement dans mes domaines d’intérêt https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
J’aimerais avoir des conseils sur la recherche locale ou enterprise. J’utilise Ollama en local et j’indexe aussi directement mes propres documents. Je ne veux pas faire des embeddings ni du fine-tuning des documents, mais je me demande comment intégrer Ollama à un système classique de recherche full text.
- Je recommande solr. C’est un très bon moteur de recherche full text, et il existe aussi une intégration mcp qui le rend facile à utiliser https://github.com/mjochum64/mcp-solr-search Avec un peu plus de travail, on peut aussi vectoriser les documents pour faire de la recherche de similarité sémantique basée sur knn. Le fait de pouvoir combiner recherche sémantique et recherche textuelle donne de bons résultats. On pourrait aussi connecter chromadb et solr pour fusionner les résultats, même si je me demande si chromadb ne serait pas plus efficace à plus grande échelle.
- docling peut aussi être une bonne alternative, et des moteurs de recherche full text éprouvés comme Typesense valent également le détour.
Depuis longtemps, j’utilise des fonctions de recherche dans les LLM en connectant le package Python DuckDuckGo. Mais les résultats Google étaient meilleurs, donc j’ai configuré quelque chose dans la console développeur et je suis passé à Google (je ne me souviens plus exactement de ce que j’ai fait). Le côté DDG est non officiel, et l’API officielle de Google a des limites de requêtes, donc ce n’est pas adapté à la recherche approfondie. En général, si on envoie quelques résultats de recherche à GPT avec sa question, on obtient la plupart du temps une bonne réponse. On peut évidemment utiliser la même structure avec Ollama, mais comme mon GPU n’est pas terrible, les longs contextes sont lents.
- Je me demande comment faire quelque chose de réellement utile sans API de scraping, puisque les API officielles sont trop limitées.
Je suis confus par ce que signifie « compte Ollama » ; au début, j’avais compris que l’idée d’Ollama était justement d’auto-héberger les modèles.
- Il faut s’inscrire pour les fonctions supplémentaires ou les modèles cloud hébergés par Ollama. En pratique, c’est vraiment optionnel, et il est tout à fait possible de créer ses propres modèles entièrement en local puis de les partager sur ollama.com.
Je suis justement en train de développer un outil qui branche la recherche web et teste plusieurs fournisseurs. openAI, xAI et gemini sont inutilisables sur les sites concurrents, car ils y sont bloqués. Dans des vidéos YouTube, cette recherche a bien fonctionné dans des tests simples, et contrairement à OpenAI web search, elle restait accessible. Sur X, ça ne marchait pas très bien, mais cela donnait parfois des résultats corrects. Ce n’est pas parfait, mais en moyenne les résultats restent exploitables.