OpenAI facture à la minute : accélérez l’audio pour réduire la durée

(george.mand.is)

16 points par GN⁺ 2025-06-26 | 2 commentaires | Partager sur WhatsApp

La tarification de la transcription audio chez OpenAI est calculée en fonction de la durée de l’audio en entrée
En convertissant l’audio à une vitesse 2x à 3x avec un outil comme ffmpeg avant de l’envoyer, il est possible de réduire le temps de traitement et le coût sans dégrader la qualité de la transcription
Sur un audio réel de 40 minutes, l’accélération en 2x ou 3x permet de réduire le coût de 23 à 33 %
Le modèle gpt-4o-transcribe ne prend en charge que les audios de moins de 25 minutes, donc l’accélération est une solution de contournement utile
Jusqu’à 2x ou 3x, la qualité reste stable, mais à 4x, la précision de la transcription chute fortement

Présentation résumée

Une méthode simple pour utiliser plus efficacement la politique tarifaire d’OpenAI pour la transcription et l’audio
Une stratégie qui consiste à augmenter la vitesse de conversion de l’audio afin de traiter le même contenu en moins de temps, et ainsi économiser à la fois sur le coût et sur le délai
En convertissant un fichier audio à une vitesse 2x à 3x avec un outil open source comme ffmpeg, puis en l’envoyant à l’API OpenAI, on peut réduire le prix et le temps nécessaire sans perte de qualité
Cette méthode est particulièrement efficace pour les audios longs, notamment à cause de la limite d’entrée de 25 minutes du modèle gpt-4o-transcribe

Méthode clé pour économiser temps et coût sur la transcription

Le service de transcription audio d’OpenAI facture en fonction de la durée de l’audio reçu en entrée
Par conséquent, si l’on accélère à l’avance un fichier vocal en 2x à 3x avec ffmpeg ou un outil équivalent avant l’envoi, le nombre de tokens d’entrée diminue fortement, et le temps de traitement de la transcription aussi
En appliquant réellement cette méthode, sur un audio de 40 minutes, le coût des tokens d’entrée baisse de plus de 33 % (0,07 $ en 3x, 0,09 $ en 2x)
Le coût des tokens de sortie reste presque identique, indépendamment de la vitesse de l’audio (car il est automatiquement déterminé selon la longueur du résumé de sortie)
Les vitesses 2x et 3x conservent une précision stable, mais à 4x, le modèle atteint une limite et ne reconnaît plus correctement le contenu

Exemple de script utilisé

Utilisation des outils open source suivants requise :

yt-dlp : extraction audio depuis YouTube, etc.
ffmpeg : conversion audio et réglage de la vitesse
llm : automatisation du résumé de texte

Workflow complet de référence :

extraction de l’audio avec yt-dlp, puis
conversion de l’audio en 2x à 3x avec ffmpeg et enregistrement en mp3
envoi du mp3 à l’API OpenAI (gpt-4o-transcribe) et récupération du texte transcrit
envoi de ce texte à llm pour générer automatiquement le résumé souhaité

Retour d’expérience réel et tâtonnements

Au départ, l’objectif était d’obtenir la transcription automatique de YouTube, mais une ancienne version de yt-dlp (2025.04.03) provoquait une erreur de téléchargement
Après mise à jour du programme, tout a fonctionné normalement, mais entre-temps l’auteur a essayé une méthode manuelle avec extraction, accélération via ffmpeg, puis traitement par l’API OpenAI
Sur un MacBook Air M3, l’exécution locale de Whisper posait des problèmes de batterie et de vitesse, et il était plus rapide et plus efficace de déporter le traitement vers le cloud via l’API OpenAI

Qualité de transcription et caractéristiques de l’algorithme

Même si l’on augmente la vitesse audio entre 2x et 3x, tout comme un humain peut écouter rapidement la voix originale, le modèle d’IA reste capable de reconnaître l’essentiel de l’information
Comme pour l’optimisation de la taille d’un fichier image (avec ou sans perte), une perte partielle d’information d’écoute — par exemple quelques mots manqués à grande vitesse — ne nuit pas beaucoup à la compréhension ni au résumé
De la même manière que le cerveau corrige naturellement une orthographe erronée ou des mots omis, l’algorithme de transcription extrait encore correctement la plupart des informations importantes à partir d’un audio accéléré

Comparaison réelle des coûts et ampleur des économies

Avec gpt-4o-transcribe d’OpenAI, le coût selon la vitesse audio se calcule ainsi :
- 2x (1 186 secondes) : 0,09 $
- 3x (791 secondes) : 0,07 $
- si l’audio d’entrée est trop long (par ex. 2 372 secondes à l’origine), le modèle ne peut pas le traiter en raison de ses limites
- avec le modèle Whisper-1, à 0,006 $/minute, cette méthode peut au final permettre jusqu’à environ 67 % d’économies
Le coût des tokens de sortie reste presque le même quelle que soit la vitesse d’entrée (en raison de la fenêtre de contexte du modèle et de la méthode de résumé)
À 4x, le résultat se dégrade fortement, avec par exemple des phrases répétées

Recommandations et conclusion

Pour utiliser la transcription vocale d’OpenAI plus rapidement et à moindre coût, accélérer l’audio en 2x à 3x est la solution la plus efficace
Une vitesse trop élevée (4x) entraîne des problèmes de précision
C’est une méthode simple, facile à mettre en œuvre, avantageuse à la fois pour préserver la qualité et réduire les coûts
Pour les startup et les professionnels IT qui doivent traiter de longs contenus vocaux — résumés audio métier, comptes rendus de réunion, etc. — cela peut constituer un levier direct d’économie de temps et d’argent

Résumé (TL;DR)

OpenAI facture selon la durée de l’audio ou selon les tokens d’entrée/sortie
En accélérant la voix en 2x à 3x avec ffmpeg avant l’envoi, on peut économiser à la fois du temps et de l’argent
La baisse du nombre de tokens d’entrée (ou de la durée) réduit la facture
2x et 3x sont les vitesses optimales ; à partir de 4x, la qualité de transcription se dégrade

2 commentaires

mbsahg 2025-06-27

Peut-on utiliser gpt-4o-transcribe ?
J’ai demandé à OpenAI hier, et ils m’ont répondu que seul le modèle Whisper peut être appelé avec la clé API.
J’envisage d’essayer Whisper avec un réglage plus rapide pour voir si la qualité peut tout de même être maintenue.

GN⁺ 2025-06-26

Commentaires Hacker News

J’ai eu l’impression que le débit de la conférence d’Andrej était déjà naturellement au moins 1,5x plus rapide que celui d’une personne moyenne, au point qu’il faut vraiment remettre la vitesse YouTube à 1x pour suivre. Si l’on veut rendre les minutes OpenAI plus efficaces, une proposition consiste à supprimer entièrement les passages de silence avant traitement.
Avec un exemple de commande ffmpeg, en remplaçant tous les silences de plus de 20 ms sous -50 dB par des pauses de 20 ms, il a été possible de raccourcir une vidéo de 39 min 31 s à 31 min 34 s. Conformément à l’esprit du billet, seule la durée a été mesurée pour évaluer l’effet, sans vérifier séparément la qualité de la version raccourcie.
- Je regarde toujours toutes les vidéos en 2x, et même les conférences d’Andrej me paraissent naturelles à cette vitesse. En revanche, les gens autour de moi me disent souvent que mes propres vidéos vont tellement vite qu’il faut les regarder en 0,75x. De mon point de vue, en dessous de 2x, tout semble trop lent. À titre de référence, je trouve que le débit de John Carmack reste parfaitement naturel même en 2x. Si mes vidéos récentes vous intéressent, vous pouvez les voir ici ; j’en ai fait plus de 250 à 300, le plus souvent en choisissant juste un sujet à la volée avant d’enregistrer. Je me demande si elles vous paraissent excessivement rapides, ou simplement d’un rythme tout à fait normal.
- Si la qualité n’a de toute façon pas été vérifiée, comparer les sorties des deux versions avec un outil comme diffchecker aurait sans doute été une solution simple.
- J’aimerais qu’il existe une vitesse YouTube à 2,25x pour les gens comme moi. J’utilise toujours les raccourcis clavier et j’écoute environ 90 % des vidéos en 2x, mais les conférences d’Andrej sont les seules que j’ai du mal à lancer au-delà de 1,25x.
- Je suis d’accord avec l’idée qu’il faut remettre la vitesse YouTube à la normale, vu qu’Andrej parle plus d’1,5x plus vite que la moyenne. Je me demande s’il existe un moyen de détecter automatiquement la vitesse de parole d’une personne. C’est subjectif et variable selon les gens, mais ce serait intéressant si l’on pouvait au moins repérer les cas où la méthode essayée par l’auteur échoue. (Par exemple, comme quand la qualité est détruite à x4.)
- Je suis impatient d’exploiter encore plus la magie de ffmpeg. Merci pour l’idée, j’ai vraiment envie d’essayer plus tard.
Réflexion sur la différence entre survoler rapidement et prendre le temps de lire ou regarder correctement.
Quand je n’avais lu que la transcription et le résumé de la conférence d’Andrej, cela m’avait semblé banal et j’étais passé à autre chose. Mais en regardant la vidéo complète sur YouTube, j’ai eu l’impression d’être entraîné dans une multitude d’idées, de pensées et de décisions. Cela m’arrive souvent avec d’autres sujets aussi. Assister à une conférence en personne est bien plus utile qu’un talk regardé en ligne. Et même regarder en ligne est bien plus utile que lire seulement un résumé. Même, réfléchir dix minutes à la va-vite n’a rien à voir avec prendre une marche et penser en profondeur. J’ai l’impression que, pour réfléchir, aller lentement est généralement préférable.
- Je trouve ça vraiment fascinant. En tant que développeur qui détestait à l’école qu’on lui balance du savoir de manière uniforme, je trouve étrange d’en être aujourd’hui à payer volontiers pour ce type d’expérience. Lire est en soi un plaisir, et cette sensation de voir ses pensées s’aligner en regardant une conférence est formidable. À mes yeux, penser nous-mêmes au sens du monde fait partie de ce qui nous rend humains. Et pourtant, je n’arrive absolument pas à adhérer à l’idée que cette tendance nous rendrait tous plus stupides.
- Très d’accord avec ce commentaire. La vraie valeur d’une conférence tient moins aux faits publics ou aux idées elles-mêmes qu’à toute l’inspiration annexe qu’elle déclenche. Il existe une quantité infinie d’informations dans le monde, et le contexte est tout. Avec un peu plus de contexte concret, j’aurais pris le temps de regarder ; mais quand on ne reçoit qu’un lien sans contexte, on adopte juste une posture consistant à extraire rapidement « l’essentiel » pour réagir. Finalement, cette discussion m’a donné envie d’y revenir. Et je suis encore une fois d’accord avec l’idée que « penser lentement est généralement préférable ».
- Penser lentement est important, bien sûr, mais je me dis qu’il peut aussi être utile d’écouter un peu une conférence puis d’y revenir plus tard pour la revoir et la méditer plus profondément.
- Je me demande si la vitesse de la vidéo était vraiment le facteur important, ou si c’était plutôt l’information supplémentaire apportée par l’image et le son. Quand un intervenant s’exprime bien, j’ai l’impression que le même message passe beaucoup mieux en audio/vidéo, parce que l’audio peut souligner certains points et que la vidéo ajoute aussi du sens via les gestes et les expressions du visage.
- À l’inverse, quand je vois des gens écouter des podcasts ou des livres audio en 2x ou 3x, j’ai l’impression que, dans mon cas, les ralentir à 0,8x m’aide davantage à me concentrer et me laisse plus de temps pour réfléchir. Je me demande si je suis un cas atypique.
J’ai essayé de résumer une conférence de 40 minutes avec l’API de transcription d’OpenAI, mais comme elle était trop longue, je l’ai compressée en 3x avec ffmpeg pour rester sous la limite de 25 minutes. Cela a réellement fonctionné, en économisant à la fois du temps et de l’argent, donc j’ai partagé l’astuce par écrit. Le script complet et la structure des coûts sont inclus.
- On plaisante en disant qu’au lieu de partager ce genre d’astuce, on aurait pu la garder pour lancer une activité de transcription moins chère qu’OpenAI.
« Et la précision ? » — « Aucune idée, de toute façon ce n’était pas le sujet. » Je trouve le travail cool, tout en ressentant une certaine inquiétude face à ce futur.
- Même les transcriptions faites par des humains n’ont jamais été garanties exactes. Ce type de transformation a toujours comporté des erreurs, et cela fera toujours partie des attentes raisonnables. Ce qui m’inquiète davantage, c’est que l’IA générative interprète les choses comme si elles étaient factuelles, ou l’idée sociale selon laquelle « l’IA est plus fiable ». L’idée répandue que l’IA serait plus digne de confiance ou plus impartiale que les humains, les experts ou les journalistes est elle aussi dangereuse.
Avec les versions antérieures à Gemini 2.0, il y avait aussi cette astuce où la facturation d’une image était un forfait fixe de 258 tokens, ce qui permettait de faire traiter l’image à moindre coût en y entassant beaucoup plus de texte.
J’ai créé une extension Chrome qui exécute le modèle OpenAI Whisper de huggingface/transformers.js via WebGPU, pour transcrire l’audio directement dans le navigateur. Voir la liste d’exemples. Par exemple, je n’ai pas envie d’écouter ni de regarder les vidéos publiées sur les réseaux sociaux du président, mais comme des déclarations absurdes pouvant avoir un fort impact économique peuvent y apparaître, je récupère automatiquement les nouveaux posts toutes les minutes, j’exécute en local l’OCR et la transcription audio, puis j’analyse le texte et je ne reçois une alerte que si c’est économiquement important. Lien du projet
- Impression que c’est une réalisation remarquable.
Recommandation d’utiliser Groq au lieu de l’API Whisper d’OpenAI (distil-large-v3 à $0.02/h, whisper-large-v3-turbo à $0.04, contre $0.36/h chez OpenAI). En interne, quand des réunions du conseil municipal sont mises en ligne sur YouTube, la transcription est automatisée en s’appuyant sur Groq, Replicate, Deepgram, etc.
- Astuce indiquant qu’avec l’Inference API de Hugging Face, il est pratique de basculer facilement entre plusieurs fournisseurs d’API. L’exemple est visible ici.
- À $0.02–$0.04 de l’heure, il n’y a probablement pas besoin d’optimiser quoi que ce soit, mais on peut quand même se demander si accélérer l’audio ne réduirait pas encore le coût. Et il y a aussi la question de savoir si YouTube fournit déjà, dans la plupart des cas, des sous-titres automatiques dans la journée.
- Pour les utilisateurs de MacBook récents, rappel qu’il est possible d’exécuter gratuitement les modèles Whisper en local. On a l’impression que beaucoup de gens ne réalisent pas à quel point les ressources de calcul de leur propre matériel sont déjà bon marché.
- Il est aussi signalé qu’il existe une option sur Cloudflare Workers AI pour utiliser le modèle whisper-large-v3-turbo à environ $0.03/h (lien).
Mise en avant du fait que, dans Google AI Studio, il suffit de fournir un lien YouTube pour obtenir automatiquement une transcription avec identification des intervenants, ainsi que l’extraction d’indices visuels. Le support multimodal pour la vidéo est aussi mentionné.
Je travaille chez OpenAI sur des sujets liés à l’API, et je suis surpris de voir que les résultats restent plutôt bons même à des vitesses de 2x à 3x. En pratique, pour les canaux téléphoniques, on utilise aussi sans problème de l’audio 8 kHz rééchantillonné en 24 kHz. En revanche, il existe clairement une baisse de précision à mesure qu’on s’éloigne de 1x, et à long terme il faudrait surtout permettre l’envoi de fichiers plus longs.
- Retour suggérant qu’il serait intéressant d’étudier en interne ce type d’optimisation de vitesse afin de trouver les multiplicateurs où la perte de précision reste minimale. Cela laisse aussi entendre qu’un simple prétraitement pourrait avoir pour effet de réduire le prix de l’API.
Avis positif sur un style d’écriture qui va droit au but. Beaucoup de textes deviennent inutilement verbeux ; cette approche paraît rafraîchissante. Cela pourrait aussi faire réaliser à la moitié des auteurs qu’en réalité, ils n’ont tout simplement aucun message central.