16 points par GN⁺ 2025-06-21 | 6 commentaires | Partager sur WhatsApp
  • SpeechAnalyzer et SpeechTranscriber d’Apple prennent en charge la transcription vocale en temps réel avec une vitesse nettement supérieure à Whisper et une qualité équivalente
  • Lors de la conversion d’un fichier vidéo réel de 34 minutes pesant 7 Go avec l’outil en ligne de commande Yap, le fichier a été transformé en SRT en seulement 45 secondes, soit un résultat 2,2 fois plus rapide que MacWhisper
  • Il y a très peu d’écart de qualité avec d’autres outils comme MacWhisper et VidCap, mais tous montrent de légères erreurs dans le traitement des noms propres et des mots composés
  • Pour les tâches répétitives sur de longues vidéos de développeurs, des cours ou des podcasts, le gain de temps cumulé est très important
  • Après installation de Yap sur la bêta de macOS Tahoe (compte développeur requis), l’outil peut être utilisé immédiatement, avec l’espoir qu’il remplace à terme Whisper sur l’ensemble des plateformes Apple (iPhone, iPad, Mac, Vision Pro)

API Speech d’Apple vs Whisper : une nouvelle révolution de vitesse

  • Présentés récemment à la WWDC, SpeechAnalyzer et SpeechTranscriber sont inclus dans les dernières bêtas de macOS, iOS, iPadOS et Vision Pro
  • L’auteur était très insatisfait de la lenteur des outils existants basés sur Whisper, mais la nouvelle API montre en usage réel des performances de niveau game changer
  • Un simple outil en ligne de commande, Yap, permet de convertir rapidement des fichiers audio/vidéo en SRT ou TXT
  • Vidéo 4K de 34 minutes, 7 Go → Yap : 45 secondes / MacWhisper (V3 Turbo) : 1 min 41 s / VidCap : 1 min 55 s / MacWhisper (V2) : 3 min 55 s
  • Les problèmes de reconnaissance du CamelCase (ex. : AppStories) et des noms propres apparaissent de façon similaire partout (et peuvent être facilement corrigés en post-traitement)

Comparaison réelle des vitesses et usage dans les workflows

  • Sur une seule vidéo, une différence de 1 à 2 minutes peut sembler faible, mais le gain de temps cumulé devient important lors du traitement de plusieurs heures de vidéo
  • Pour les conversions massives par lots, comme des vidéos YouTube, une automatisation efficace est possible en l’associant à yt-dlp
  • L’outil offre aux créateurs, YouTubeurs, étudiants et autres utilisateurs un workflow rapide pour les sous-titres, cours et résumés
  • La combinaison SpeechAnalyzer/SpeechTranscriber devrait remplacer rapidement Whisper

Mise en pratique et méthode d’installation

  • Installer la bêta de macOS Tahoe (compte développeur requis pour le moment)
  • Télécharger et installer l’outil en ligne de commande depuis le dépôt GitHub de Yap
  • Après l’exécution de Yap, entrer un fichier audio/vidéo → le fichier converti en SRT/TXT est généré immédiatement
  • Des informations techniques supplémentaires sont disponibles dans la documentation officielle de l’API Speech d’Apple et dans la vidéo WWDC (session 277)

Conclusion et perspectives

  • L’API Speech d’Apple montre une avance écrasante en vitesse par rapport à Whisper tout en maintenant un niveau de qualité équivalent
  • Elle a de fortes chances de devenir le modèle standard pour les utilisateurs qui s’appuient principalement sur des workflows de reconnaissance/transcription vocale sur les plateformes Apple
  • On peut s’attendre à une maximisation de l’efficacité cumulée et à un gain de productivité dans les tâches d’automatisation répétitives

6 commentaires

 
brainer 2025-06-21

Il faudra que je teste aussi le coréen un de ces jours.

 
howudoin 2025-06-21

Le simple fait que ce soit une plateforme Apple me rebute, à cause de cette mentalité fermée.

 
gera1d 2025-06-21

Je n’aime pas voir des commentaires en langage familier, mais il n’y a pas d’option de blocage.

 
jk34011 2025-06-23

À ce compte-là, votre commentaire aussi est en tutoiement ;;

 
crawler 2025-06-22

On peut ne pas aimer qu’on critique Apple, mais ce n’est pas du tutoiement familier. C’est le style télégraphique coréen, et les résumés de base de GeekNews sont eux-mêmes rédigés dans ce style ; je me demande bien comment vous lisez les articles...

 
[Ce commentaire a été masqué.]