- La cochlée (cochlea) traite le son en recevant les vibrations produites par les variations de pression de l’air via une structure physique qui les sépare par fréquence
- Chaque position de la membrane basilaire (basilar membrane) résonne à une fréquence donnée : les hautes fréquences sont détectées à la base, plus rigide, et les basses fréquences à l’extrémité, plus souple
- Au cours de ce processus, les cellules ciliées (hair cell) ouvrent et ferment des canaux ioniques selon les vibrations afin de les convertir en signaux électriques, tandis que les fibres nerveuses filtrent les informations temporelles et fréquentielles
- Toutefois, ces filtres préservent la résolution temporelle, contrairement à une transformée de Fourier ; en pratique, ils fonctionnent sous une forme entre ondelette (wavelet) et Gabor
- Cette structure relève d’une stratégie de codage efficace (efficient coding) qui réduit les redondances des sons naturels, et le langage humain occupe un espace temps-fréquence singulier
Structure de séparation fréquentielle de la cochlée
- Le tympan (tympanic membrane) vibre en réponse aux variations de pression de l’air, et les osselets de l’oreille moyenne amplifient ce mouvement avant de le transmettre au liquide de la cochlée
- La vibration se propage le long de la membrane basilaire (basilar membrane), chaque position entrant en résonance avec une fréquence spécifique selon ses propriétés physiques
- La base, rigide et légère, répond aux hautes fréquences, tandis que l’extrémité, souple et plus lourde, répond aux basses fréquences
- La fréquence de résonance de la membrane basilaire décroît spatialement de façon logarithmique (logarithmic)
- Cela correspond au caractère logarithmique de la perception humaine de la hauteur (pitch)
Transduction mécano-électrique des cellules ciliées
- Les cellules ciliées (hair cell) situées sur la membrane basilaire vibrent selon la fréquence correspondant à leur position, et ce mouvement entraîne l’ouverture et la fermeture de canaux ioniques
- La structure en ressort à l’extrémité des cellules ciliées fonctionne comme une « trapdoor », libérant des neurotransmetteurs au rythme de la fréquence vibratoire
- Ce processus permet la conversion des vibrations mécaniques en signaux électriques, ensuite transmis au nerf auditif
Filtres auditifs et résolution temps-fréquence
- Les fibres du nerf auditif fonctionnent comme des filtres extrayant les informations temporelles et fréquentielles
- Les filtres concentrés sur une courte durée offrent une forte résolution temporelle, mais une distribution fréquentielle irrégulière
- Les filtres étalés sur une longue durée offrent une forte résolution fréquentielle, mais brouillent l’information temporelle
- La transformée de Fourier (Fourier transform) ne contient pas d’information temporelle et présente, comme dans la figure de droite, une distribution fréquentielle uniforme, ce qui diffère des filtres réels de l’oreille
- Les filtres de la cochlée prennent une forme intermédiaire entre les ondelettes et les filtres de Gabor :
- dans la zone des hautes fréquences, ils augmentent la résolution temporelle
- dans la zone des basses fréquences, ils augmentent la résolution fréquentielle, selon une structure de compensation mutuelle
Codage efficace et analyse des sons naturels
- L’étude de Lewicki (2002) avance que cette structure de filtres constitue une stratégie de réduction des redondances des sons naturels
- En comparant bruits d’environnement, vocalisations animales et voix humaines via l’ICA (Independent Component Analysis) visant à maximiser l’indépendance
- les bruits d’environnement et la voix humaine se rapprochent de filtres de type ondelette, tandis que les vocalisations animales donnent des résultats plus proches de filtres de type Fourier
- Le langage humain occupe un espace temps-fréquence propre ;
- certains chercheurs évoquent la possibilité que le langage ait évolué pour remplir des zones non occupées par les sons naturels préexistants
Codage écologique et traitement sensoriel
- Les systèmes sensoriels développent des modes de codage adaptés à l’environnement, et l’audition en est présentée comme un exemple
- Cette représentation écologiquement pertinente (ecologically-relevant representation) repose sur l’interaction entre comportement et environnement
- La fin du texte indique que les cours suivants déplaceront l’attention vers les calculs biophysiques au niveau des neurones
- Dans l’ensemble, l’oreille fonctionne comme un système de filtrage efficace et adaptatif, et non comme une transformée de Fourier
1 commentaires
Commentaires Hacker News
En résumé, l’oreille n’effectue pas une transformée de Fourier (Fourier Transform), mais plutôt une transformation temps-fréquence localisée qui se situe quelque part entre les ondelettes (wavelets) et la transformée de Gabor
Cela vient du fait que le son est localisé dans le temps
L’article présente aussi la théorie selon laquelle le langage humain a évolué pour occuper une zone auparavant vide dans l’espace fréquence–durée d’enveloppe
Il est possible que la cochlée humaine soit optimisée pour la voix humaine
Personne qui connaît le traitement du signal ne prétend que l’oreille effectue une transformée de Fourier sur un temps infini
L’oreille fait en pratique quelque chose de proche d’une FFT (Fast Fourier Transform), c’est-à-dire calculer l’intensité par fréquence
Les transformées par ondelettes ou de Gabor sont mathématiquement différentes, mais dans les faits elles produisent 95 à 99 % du même résultat
Donc, pour simplifier, on peut considérer que l’oreille effectue une transformée de Fourier discrète fenêtrée
Cela s’explique par le principe d’incertitude temps-fréquence
Il est plus simple de voir le banc de filtres de l’oreille comme un ensemble arbitraire de filtres fondé sur des résultats physiologiques
La taille des animaux joue aussi un rôle — les petits animaux peuvent davantage émettre et entendre dans l’ultrason
Par exemple, un cri d’alerte comme « un tigre attaque » et un « son pour apaiser un bébé » se situeraient dans des zones différentes
Le titre est un peu putaclic, et le contenu est, à strictement parler, faux
Les transformées de Gabor ou par ondelettes sont des généralisations de la transformée de Fourier, qui permettent une analyse spectrale dans le temps
L’oreille fait en réalité quelque chose de très fourierien
La transformée de Fourier est infinie et continue, alors que la DFT est finie et discrète
On peut considérer que l’audition humaine se situe quelque part entre les deux, plus proche d’une série de Fourier (Fourier Series)
Les ondelettes constituent une autre approche, utilisant des formes d’onde déformées au lieu de sinusoïdes
Au final, dans le langage courant, l’oreille effectue bien un traitement « fourierien »
Le résumé du papier indique explicitement que, lorsqu’on optimise pour les vocalisations animales, on obtient quelque chose de proche d’une transformée de Fourier, et lorsqu’on optimise pour des sons environnementaux non biologiques, on obtient quelque chose de proche d’une transformée par ondelettes
Pour aller plus loin, le modèle CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression) vaut le détour
Il est considéré comme l’une des modélisations numériques les plus précises de l’audition humaine
Le PDF de son livre est disponible ici
L’idée selon laquelle la voix humaine occupe des zones moins encombrées du spectre rappelle aussi le livre The Great Animal Orchestra
Lien vers le livre
Il traite de la façon dont différentes espèces ont évolué pour occuper chacune leur propre niche acoustique
Mais le fait que ce phénomène s’atténue avec la destruction des habitats est plutôt déprimant
En ville, ils chantent tôt avant l’apparition du bruit de la circulation ; en forêt, plus tard quand le bruit des insectes diminue
L’évolution peut alors privilégier une diversité temporelle plutôt qu’une diversité spatiale
Il y a une confusion terminologique, mais la transformée de Fourier suppose un intervalle de temps infini
Sur un intervalle fini, il est plus juste de parler de série de Fourier
Le fonctionnement réel de l’oreille, avec l’application d’une fonction de pondération temporelle, se situe quelque part entre la série et la transformée de Fourier
Cet article met bien ce point en lumière
Il est aussi possible que la voix humaine et la structure de l’audition aient coévolué
L’oreille ne réalise pas une transformée de Fourier sur une durée infinie
Elle effectue plutôt une transformation discrète et fenêtrée, avec un compromis similaire au principe d’incertitude entre résolution temporelle et fréquentielle
Une fenêtre longue augmente la résolution fréquentielle et diminue la résolution temporelle, tandis qu’une fenêtre courte fait l’inverse
La cochlée humaine fonctionne de façon à augmenter la résolution fréquentielle dans le grave pour distinguer les formants, et à augmenter la résolution temporelle dans l’aigu pour détecter les plosives
La membrane basilaire est une structure biologique remarquable
La FFT est utile en traitement audio informatique, mais elle a ses limites pour modéliser l’audition humaine fondée sur la perception temporelle
La vidéo montrant les tip links des cellules ciliées et les canaux ioniques est fascinante
Vidéo associée
Si cette structure est endommagée, cela peut provoquer des acouphènes (tinnitus)
L’oreille dispose aussi d’une amplification active, au point qu’on peut faire vibrer les cellules par un signal électrique
La vidéo ci-dessus se termine par une tonalité très aiguë, donc prudence si vous portez un casque
Le cortex associatif auditif du lobe pariétal distingue les fréquences, ce qui implique l’existence d’une transformation temps-fréquence entre l’oreille et le cerveau
Comme l’activité des neurones est discrète, il s’agit d’une transformation discrète réalisée dans un temps fini
Une manière simple d’étendre un signal fini en signal infini consiste à supposer qu’il se répète indéfiniment dans le passé et dans le futur