4 points par GN⁺ 2025-10-31 | 1 commentaires | Partager sur WhatsApp
  • La cochlée (cochlea) traite le son en recevant les vibrations produites par les variations de pression de l’air via une structure physique qui les sépare par fréquence
  • Chaque position de la membrane basilaire (basilar membrane) résonne à une fréquence donnée : les hautes fréquences sont détectées à la base, plus rigide, et les basses fréquences à l’extrémité, plus souple
  • Au cours de ce processus, les cellules ciliées (hair cell) ouvrent et ferment des canaux ioniques selon les vibrations afin de les convertir en signaux électriques, tandis que les fibres nerveuses filtrent les informations temporelles et fréquentielles
  • Toutefois, ces filtres préservent la résolution temporelle, contrairement à une transformée de Fourier ; en pratique, ils fonctionnent sous une forme entre ondelette (wavelet) et Gabor
  • Cette structure relève d’une stratégie de codage efficace (efficient coding) qui réduit les redondances des sons naturels, et le langage humain occupe un espace temps-fréquence singulier

Structure de séparation fréquentielle de la cochlée

  • Le tympan (tympanic membrane) vibre en réponse aux variations de pression de l’air, et les osselets de l’oreille moyenne amplifient ce mouvement avant de le transmettre au liquide de la cochlée
    • La vibration se propage le long de la membrane basilaire (basilar membrane), chaque position entrant en résonance avec une fréquence spécifique selon ses propriétés physiques
    • La base, rigide et légère, répond aux hautes fréquences, tandis que l’extrémité, souple et plus lourde, répond aux basses fréquences
  • La fréquence de résonance de la membrane basilaire décroît spatialement de façon logarithmique (logarithmic)
    • Cela correspond au caractère logarithmique de la perception humaine de la hauteur (pitch)

Transduction mécano-électrique des cellules ciliées

  • Les cellules ciliées (hair cell) situées sur la membrane basilaire vibrent selon la fréquence correspondant à leur position, et ce mouvement entraîne l’ouverture et la fermeture de canaux ioniques
    • La structure en ressort à l’extrémité des cellules ciliées fonctionne comme une « trapdoor », libérant des neurotransmetteurs au rythme de la fréquence vibratoire
  • Ce processus permet la conversion des vibrations mécaniques en signaux électriques, ensuite transmis au nerf auditif

Filtres auditifs et résolution temps-fréquence

  • Les fibres du nerf auditif fonctionnent comme des filtres extrayant les informations temporelles et fréquentielles
    • Les filtres concentrés sur une courte durée offrent une forte résolution temporelle, mais une distribution fréquentielle irrégulière
    • Les filtres étalés sur une longue durée offrent une forte résolution fréquentielle, mais brouillent l’information temporelle
  • La transformée de Fourier (Fourier transform) ne contient pas d’information temporelle et présente, comme dans la figure de droite, une distribution fréquentielle uniforme, ce qui diffère des filtres réels de l’oreille
  • Les filtres de la cochlée prennent une forme intermédiaire entre les ondelettes et les filtres de Gabor :
    • dans la zone des hautes fréquences, ils augmentent la résolution temporelle
    • dans la zone des basses fréquences, ils augmentent la résolution fréquentielle, selon une structure de compensation mutuelle

Codage efficace et analyse des sons naturels

  • L’étude de Lewicki (2002) avance que cette structure de filtres constitue une stratégie de réduction des redondances des sons naturels
    • En comparant bruits d’environnement, vocalisations animales et voix humaines via l’ICA (Independent Component Analysis) visant à maximiser l’indépendance
    • les bruits d’environnement et la voix humaine se rapprochent de filtres de type ondelette, tandis que les vocalisations animales donnent des résultats plus proches de filtres de type Fourier
  • Le langage humain occupe un espace temps-fréquence propre ;
    • certains chercheurs évoquent la possibilité que le langage ait évolué pour remplir des zones non occupées par les sons naturels préexistants

Codage écologique et traitement sensoriel

  • Les systèmes sensoriels développent des modes de codage adaptés à l’environnement, et l’audition en est présentée comme un exemple
    • Cette représentation écologiquement pertinente (ecologically-relevant representation) repose sur l’interaction entre comportement et environnement
  • La fin du texte indique que les cours suivants déplaceront l’attention vers les calculs biophysiques au niveau des neurones
  • Dans l’ensemble, l’oreille fonctionne comme un système de filtrage efficace et adaptatif, et non comme une transformée de Fourier

1 commentaires

 
GN⁺ 2025-10-31
Commentaires Hacker News
  • En résumé, l’oreille n’effectue pas une transformée de Fourier (Fourier Transform), mais plutôt une transformation temps-fréquence localisée qui se situe quelque part entre les ondelettes (wavelets) et la transformée de Gabor
    Cela vient du fait que le son est localisé dans le temps
    L’article présente aussi la théorie selon laquelle le langage humain a évolué pour occuper une zone auparavant vide dans l’espace fréquence–durée d’enveloppe
    Il est possible que la cochlée humaine soit optimisée pour la voix humaine

    • Cet article donne trop l’impression de construire un homme de paille
      Personne qui connaît le traitement du signal ne prétend que l’oreille effectue une transformée de Fourier sur un temps infini
      L’oreille fait en pratique quelque chose de proche d’une FFT (Fast Fourier Transform), c’est-à-dire calculer l’intensité par fréquence
      Les transformées par ondelettes ou de Gabor sont mathématiquement différentes, mais dans les faits elles produisent 95 à 99 % du même résultat
      Donc, pour simplifier, on peut considérer que l’oreille effectue une transformée de Fourier discrète fenêtrée
    • Aux hautes fréquences, elle sacrifie la résolution fréquentielle pour augmenter la résolution temporelle, et aux basses fréquences c’est l’inverse
      Cela s’explique par le principe d’incertitude temps-fréquence
      Il est plus simple de voir le banc de filtres de l’oreille comme un ensemble arbitraire de filtres fondé sur des résultats physiologiques
      La taille des animaux joue aussi un rôle — les petits animaux peuvent davantage émettre et entendre dans l’ultrason
    • Si les caractéristiques de la cochlée humaine sont adaptées à la voix humaine, on pourrait peut-être l’exploiter pour le mastering audio des dialogues au cinéma ou à la télévision afin de les rendre plus intelligibles
    • On peut aussi se demander que, si l’oreille faisait réellement une transformée de Fourier, ne faudrait-il pas attendre toute une vie. Comme on entend le son en temps réel, ce n’est évidemment pas le cas
    • En poussant l’idée plus loin, certains mots et phonèmes occuperaient des régions spécifiques dans l’espace du compromis fréquence–temps
      Par exemple, un cri d’alerte comme « un tigre attaque » et un « son pour apaiser un bébé » se situeraient dans des zones différentes
  • Le titre est un peu putaclic, et le contenu est, à strictement parler, faux
    Les transformées de Gabor ou par ondelettes sont des généralisations de la transformée de Fourier, qui permettent une analyse spectrale dans le temps
    L’oreille fait en réalité quelque chose de très fourierien

    • D’accord pour le côté putaclic, mais à strictement parler ce n’est pas faux
      La transformée de Fourier est infinie et continue, alors que la DFT est finie et discrète
      On peut considérer que l’audition humaine se situe quelque part entre les deux, plus proche d’une série de Fourier (Fourier Series)
      Les ondelettes constituent une autre approche, utilisant des formes d’onde déformées au lieu de sinusoïdes
      Au final, dans le langage courant, l’oreille effectue bien un traitement « fourierien »
    • Cet article est un billet de journal club écrit par un doctorant présentant le papier de Lewicki de 2002
      Le résumé du papier indique explicitement que, lorsqu’on optimise pour les vocalisations animales, on obtient quelque chose de proche d’une transformée de Fourier, et lorsqu’on optimise pour des sons environnementaux non biologiques, on obtient quelque chose de proche d’une transformée par ondelettes
  • Pour aller plus loin, le modèle CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) vaut le détour
    Il est considéré comme l’une des modélisations numériques les plus précises de l’audition humaine
    Le PDF de son livre est disponible ici

    • Excellente ressource. Merci
  • L’idée selon laquelle la voix humaine occupe des zones moins encombrées du spectre rappelle aussi le livre The Great Animal Orchestra
    Lien vers le livre
    Il traite de la façon dont différentes espèces ont évolué pour occuper chacune leur propre niche acoustique
    Mais le fait que ce phénomène s’atténue avec la destruction des habitats est plutôt déprimant

    • Les oiseaux aussi ont évolué pour choisir les moments où ils ont le plus de chances d’être entendus
      En ville, ils chantent tôt avant l’apparition du bruit de la circulation ; en forêt, plus tard quand le bruit des insectes diminue
    • Lorsque les traits évolutifs qui donnaient un avantage dans la nature disparaissent, ils sont remplacés par d’autres mieux adaptés à l’environnement urbain
      L’évolution peut alors privilégier une diversité temporelle plutôt qu’une diversité spatiale
  • Il y a une confusion terminologique, mais la transformée de Fourier suppose un intervalle de temps infini
    Sur un intervalle fini, il est plus juste de parler de série de Fourier
    Le fonctionnement réel de l’oreille, avec l’application d’une fonction de pondération temporelle, se situe quelque part entre la série et la transformée de Fourier
    Cet article met bien ce point en lumière

    • Au fond, l’oreille n’effectue pas une seule transformée de Fourier, mais plusieurs transformations avec un compromis entre résolution temporelle et fréquentielle
      Il est aussi possible que la voix humaine et la structure de l’audition aient coévolué
    • Le titre est un peu provocateur, mais c’est intéressant car il traite bien des détails de l’implémentation physiologique de l’audition humaine, par exemple le mécanisme de transduction des stéréocils cochléaires
  • L’oreille ne réalise pas une transformée de Fourier sur une durée infinie
    Elle effectue plutôt une transformation discrète et fenêtrée, avec un compromis similaire au principe d’incertitude entre résolution temporelle et fréquentielle
    Une fenêtre longue augmente la résolution fréquentielle et diminue la résolution temporelle, tandis qu’une fenêtre courte fait l’inverse
    La cochlée humaine fonctionne de façon à augmenter la résolution fréquentielle dans le grave pour distinguer les formants, et à augmenter la résolution temporelle dans l’aigu pour détecter les plosives

    • Il s’agissait sans doute du principe d’incertitude de Heisenberg, pas du « principe d’exclusion de Pauli »
    • L’oreille ne procède pas par échantillonnage des données, mais par un processus mécanique continu
    • Penser à la STFT (transformée de Fourier à court terme) aide à comprendre
  • La membrane basilaire est une structure biologique remarquable
    La FFT est utile en traitement audio informatique, mais elle a ses limites pour modéliser l’audition humaine fondée sur la perception temporelle

  • La vidéo montrant les tip links des cellules ciliées et les canaux ioniques est fascinante
    Vidéo associée
    Si cette structure est endommagée, cela peut provoquer des acouphènes (tinnitus)
    L’oreille dispose aussi d’une amplification active, au point qu’on peut faire vibrer les cellules par un signal électrique

  • La vidéo ci-dessus se termine par une tonalité très aiguë, donc prudence si vous portez un casque

  • Le cortex associatif auditif du lobe pariétal distingue les fréquences, ce qui implique l’existence d’une transformation temps-fréquence entre l’oreille et le cerveau
    Comme l’activité des neurones est discrète, il s’agit d’une transformation discrète réalisée dans un temps fini
    Une manière simple d’étendre un signal fini en signal infini consiste à supposer qu’il se répète indéfiniment dans le passé et dans le futur