Mistral AI ajoute Deep Research, Voice, Projects et d’autres nouveautés à Le Chat

(mistral.ai)

3 points par GN⁺ 2025-07-18 | 1 commentaires | Partager sur WhatsApp

Mistral AI a ajouté cinq nouvelles fonctionnalités à Le Chat afin de rendre l’exploration, l’expression et l’organisation plus naturelles et plus puissantes pour les utilisateurs
Le mode Deep Research permet de transformer rapidement des questions complexes en rapports de recherche structurés
Le mode vocal permet des conversations naturelles et rapides grâce au nouveau modèle vocal Voxtral, et peut être utilisé sans taper
La fonctionnalité de raisonnement multilingue natif, basée sur Magistral, génère des réponses claires et approfondies dans différentes langues, avec possibilité d’alterner les langues au sein d’une même phrase
La fonctionnalité Projects permet d’organiser et de mémoriser conversations, documents et idées par projet, ce qui la rend adaptée aux travaux de longue durée

What’s new in Le Chat.

1. Mode Deep Research

Fonction qui effectue rapidement des recherches sur des sujets complexes sous forme de rapport structuré
Décompose la question de l’utilisateur, trouve des sources fiables et génère un rapport organisé
S’appuie sur un agent Deep Research basé sur des outils, tout en offrant une expérience utilisateur simple, transparente et collaborative

2. Mode vocal

Permet une conversation vocale naturelle grâce à un nouveau modèle vocal appelé Voxtral
Adapté à de nombreuses situations : brainstorming d’idées en marchant, réponses rapides à des questions en déplacement, dictée de réunions, etc.
Suit le rythme de parole de l’utilisateur grâce à une faible latence

3. Raisonnement nativement multilingue

Basé sur le modèle de raisonnement Magistral, il répond clairement à des questions complexes dans différentes langues
Utile pour les usages multilingues comme la rédaction d’une proposition en espagnol ou l’explication d’un concept juridique en japonais
Permet aussi l’alternance de langues dans une même phrase (code-switching)

4. Projects

Organise les conversations liées sous forme de dossiers centrés sur le contexte
Chaque projet mémorise sa propre bibliothèque ainsi que l’état de configuration des outils
Permet de téléverser des documents, de charger le contenu de la bibliothèque et de maintenir un environnement de travail cohérent avec les conversations et les idées
Utile pour préparer un déménagement, concevoir des fonctionnalités produit ou gérer des projets de long terme

5. Édition d’image avancée

Contrairement aux outils classiques de génération texte-image, il est possible de modifier directement les images générées
Exemple : modifier une scène avec des prompts comme « supprimer un objet » ou « déplacer vers une autre ville »
Permet d’éditer une série tout en préservant la cohérence des personnages, objets ou éléments de design

1 commentaires

GN⁺ 2025-07-18

Avis Hacker News

La fonction d’édition d’images a l’air vraiment excellente, au point que c’est presque l’élément principal, alors qu’elle n’est pas si mise en avant que ça. Les modèles d’OpenAI ont tendance à modifier l’image dans son ensemble et à détériorer des détails qui n’ont rien à voir avec la requête, tandis que celui-ci préserve parfaitement les parties non concernées tout en appliquant très bien les modifications demandées, ce qui est impressionnant. En revanche, la résolution de sortie est un peu décevante (l’image d’entrée était bien plus grande, mais le résultat fait 1184 px). J’ai envoyé une photo de mon bureau à la maison en demandant de « restaurer complètement les panneaux gris légèrement déchirés en bas pour qu’ils paraissent comme neufs », et le résultat était franchement excellent. La qualité de sortie est très légèrement inférieure à l’originale, mais j’espère que ça aussi sera bientôt amélioré
- Image d’entrée : https://i.imgur.com/t0WCKAu.jpeg
- Image résultat : https://i.imgur.com/xb99lmC.png
- Ce genre de technologie risque de faire très mal à Craigslist. Par exemple, on peut se déplacer en pensant voir une voiture en bon état sur photo, puis découvrir sur place une aile enfoncée, un trou dans le capot et un phare cassé.
  Il y a déjà eu un cas où un agent immobilier avait entièrement retravaillé avec l’IA des photos d’une maison pour lui donner l’apparence d’un bien neuf alors qu’elle était vétuste. Les gens se sont déplacés et étaient furieux. L’agent a soutenu qu’il s’agissait simplement d’une forme supplémentaire de mise en scène, mais dans ce cas, ça n’a pas du tout pris. L’annonce a fini par être retirée, et beaucoup de gens sont même venus pour proposer des réparations (probablement de la famille, mais sans certitude)
- Au passage, les liens vers l’image d’entrée et le résultat que tu as postés sont identiques. J’ai d’abord essayé de repérer les différences entre les photos avant de me rendre compte du problème
- Pour certaines tâches, Kontext est probablement meilleur, et j’imagine que Mistral s’appuie là-dessus. Surtout, c’est rapide et peu cher.
  Cela dit, OpenAI a aussi ajouté hier une nouvelle fonction d’édition d’images en plus haute qualité. Je ne sais pas encore si c’est réservé à l’API ou si ça arrivera aussi dans l’interface de chat. Résultat avec la même invite et la même image d’entrée : https://i.imgur.com/w5Q0UQm.png
- Nouveauté OpenAI : https://x.com/OpenAIDevs/status/1945538534884135132
- Ils utilisent Flux Kontext de Black Forest Labs, et c’est vraiment un excellent modèle
- Les titres des livres sont déformés dans l’image produite
J’ai enfin l’impression que l’UE se réveille. J’en suis fier. Dès que mon contrat avec OpenAI se termine, je compte passer chez Mistral. Il faut soutenir l’Europe, Viva La France
- En réalité, j’attends surtout Mistral Large 3. Il y a déjà eu des indices, et il semble probable qu’il devienne bientôt le modèle de langage par défaut du nouveau Le Chat.
  Dans le « One more thing » du billet de blog de mai sur Mistral Medium 3, il y avait ceci :
En mars, Mistral Small ; aujourd’hui, Medium ; et bientôt un modèle « large ». Comme le modèle Medium surpasse déjà nettement d’autres modèles open source de référence (comme Llama 4 Maverick), la prochaine étape suscite beaucoup d’attentes
Avec cette version, l’écart avec les meilleurs grands modèles ne devrait plus vraiment avoir beaucoup d’importance. Et la vitesse de Cerebras offre une expérience utilisateur vraiment remarquable, même comparée à ChatGPT
Je souffre de MRF, pour Model Release Fatigue. Les gros modèles sortent à une fréquence folle, donc je passe mon temps à changer de modèle dans mon IDE, et quand je relance quelque chose qui marchait bien avant, ça me paraît maintenant moins bon.
Claude 4, gpt, llama, Gemini 2.5, pro-mini, mistral… à force de changer tout le temps, j’ai l’impression d’avoir la tête qui tourne
C’est la fatigue liée au changement permanent de modèles de LLM
- Je comprends ce que tu ressens, mais je trouve formidable qu’on ait autant d’options qui continuent d’arriver. Le rythme de l’innovation est excellent. Si on veut toujours utiliser le meilleur modèle disponible, ça peut être éprouvant, mais c’est quand même bien préférable à la stagnation ou au monopole
- C’est pour ça que je teste très peu ces nouvelles technos en ce moment (même si c’est amusant). Je pense m’y mettre moi-même vers le second semestre 2026. D’ici là, les modèles locaux et le matériel auront davantage mûri.
  Respect à ceux qui encaissent les versions expérimentales aujourd’hui
- Cette concurrence est justement une très bonne chose. J’utilise toujours des modèles premium, et je dépense pourtant très peu. Il y a constamment des promotions ou des occasions presque gratuites
- Pas besoin de suivre tout ça de près. Il suffit d’utiliser régulièrement un modèle qui te convient bien
- Si les anciennes versions paraissent moins bonnes, c’est parce que les fournisseurs concentrent leurs ressources sur les nouvelles. Il y a aussi l’effet du cutoff des données d’entraînement sur les anciennes versions (par ex. claude sonnet 3.5→3.7).
  Personnellement, je n’utilise que Claude/Anthropic. Je trouve qu’il me comprend mieux. Il est suffisamment intelligent pour que je n’aie pas vraiment besoin de la toute dernière version
La sortie de Voxtral m’a intéressé parce qu’elle a relancé la dynamique autour de la transcription audio open source compétitive (transcription, voix → texte). Je me demande s’il fallait vraiment un backbone de LLM, mais dans tous les cas, l’approche est intéressante
- En pratique, il existe déjà beaucoup plus de modèles open source de STT vraiment performants.
  Le communiqué de Mistral donne l’impression qu’il s’agit de ce qu’il y a de mieux depuis Whisper, mais en réalité, les comparaisons ne se font pas avec le haut du classement.
  Benchmark ouvert : https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
  Pour info, Scribe, utilisé comme point de comparaison par Mistral, est 10e.
  C’est un benchmark en anglais, mais il inclut aussi beaucoup de modèles multilingues, donc ça reste utile comme référence (ex. https://huggingface.co/nvidia/canary-1b-flash)
À ce stade, les modèles open data — avec des données vérifiables, y compris sur le plan éthique — m’intéressent bien plus que l’open code ou les open weights.
Par exemple, j’aimerais utiliser un modèle capable d’indiquer si une ressource précise que je désigne a été incluse ou non dans ses données d’entraînement
J’ai de plus en plus l’impression que l’industrie de l’IA ne fait que copier le service d’OpenAI.
Les services des autres entreprises sont presque les mêmes, seule la structure change un peu.
Et l’innovation réelle n’est pas si forte que ça
- En pratique, quand on les utilise vraiment, ce n’est pas du tout pareil. Pour des tâches quotidiennes comme le code, les différences entre modèles sont très nettes
- On a désormais l’impression que le monde entier construit de nouveaux services au-dessus d’une fonction f(input: string): string. Forcément, ça finit par se ressembler
- OpenAI lui-même a repris la fonction Deep Research de Google. Ils ont utilisé le même nom, et Mistral a fait pareil
- C’est justement le signe d’une concurrence saine. Des cas comme Apple, qui a innové pendant des décennies, sont aussi le produit d’un gatekeeping monopolistique
- Au fond, c’est presque toujours la même technologie qui est déployée partout. La différence tient surtout aux données d’entraînement et à la puissance de calcul
J’utilise énormément ChatGPT. J’aimerais aussi tester Le Chat, mais je me demande s’il y a une vraie différence ou si c’est globalement très similaire
Si tu n’as pas encore utilisé Deep Research d’OpenAI, je te recommande vraiment de l’essayer. Je n’ai pas encore trouvé d’alternative au même niveau. J’ai aussi testé celle de Google, mais elle ne m’a pas particulièrement impressionné.
Pour les ingénieurs qui font des recherches sur des trade-offs, ça peut faire gagner énormément de temps
- La fonction Research d’Anthropic est aussi très bonne. À mon avis, elle est du niveau d’OpenAI.
  La version payante de Google est un peu plus précise, mais les rapports produits sont tellement verbeux qu’ils sont pénibles à lire. On dirait un devoir d’étudiant rallongé artificiellement pour atteindre un nombre de mots donné
- Moi, ça m’a surtout énormément aidé pour les études de marché (côté startup). C’est comme avoir embauché un assistant PM / chargé de planning junior mais très intelligent
- Je recommande aussi d’essayer la fonction de recherche de Kimi 2. J’ai été surpris par la qualité des résultats
- Les résultats d’OpenAI et de Gemini sont assez différents. Je ne dirais pas que l’un est meilleur que l’autre, ils sont simplement nettement différents
- Perplexities n’est pas mal non plus. En revanche, comme je n’ai pas d’abonnement payant OpenAI, je ne peux pas comparer directement
Les exemples de prompt ne sont pas très bons. Par exemple, pour la réponse liée à la planification personnelle, il vaut largement mieux répondre directement sans Deep Research (seule la partie sur le visa est correctement traitée)
Je me demande si Voxtral pourrait être intégré au clavier Android de Futo

Mistral AI ajoute Deep Research, Voice, Projects et d’autres nouveautés à Le Chat

What’s new in Le Chat.

1. Mode Deep Research

2. Mode vocal

3. Raisonnement nativement multilingue

4. Projects

5. Édition d’image avancée

À lire aussi

1 commentaires

Avis Hacker News