Note di psicoacustica

Le curve di Fletcher e Munson

Per valutare il funzionamento dei sistemi di codifica percettiva, è necessario capire come l'orecchio umano funzioni. I primi studi hanno portato a costruire una serie di teorie e di modelli, ma la base è costituita dalla sensibilità e dal comportamento dell'udito in presenza di combinazioni di suoni.

Per quanto riguarda la sensibilità, molto conosciute sono le curve di Fletcher e Munson, che mostrano la sensazione sonora al variare della frequenza. La curva in basso, marcata come 0 phon, è la soglia di udibilità, ed è l'unica rilevata oggettivamente, le altre curve sono costruite mediante confronto con un segnale sonoro sinusoidale a 1000 Hz di potenza conosciuta. La curva dei 110 phon costituisce il limite tra sensazione sonora e dolorosa.

Le curve dimostrano come per ottenere la stessa sensazione di intensità sonora occorra un segnale molto più alto alle frequenze inferiori ai 200 Hz e superiori a 7-10kHz. La sensibilità massima si ha tra i 2kHz ed i 5kHz.

L'effetto mascheramento (masking)

Un altro effetto ormai ben conosciuto è il mascheramento (masking). Si verifica quando un suono di una certa intensità e frequenza "nasconde", ossia maschera, suoni di frequenze vicine e di intensità inferiori.

Nel grafico la frequenza indicata in blu è la frequenza "mascherante". La curva rossa tratteggiata è la curva di mascheramento, ossia tutte le frequenze la cui intensità è inferiore a quella indicata nella curva sono mascherate, ossia inaudibili. Le frequenze indicate in rosso non saranno quindi percepibili da un ascoltatore, mentre la frequenza in verde sì. La zona ombreggiata in blu è una zona dove si presentano effetti di battimento.

L'effetto mascheramento è proprio della conformazione e del funzionamento dell'orecchio umano, non del maggiore o minore esercizio della facoltà uditiva. Non esistono quindi persone che non subiscano tale effetto percettivo.

Forward e backward masking

Un altro tipo di mascheramento si manifesta nel dominio del tempo. Si è verificato che un suono a basso livello seguito da un suono a livello sensibilmente più alto viene cancellato alla percezione. E' un effetto che si sviluppa nell'arco di decine di millisecondi, ed è ovviamente dipendente dalle frequenze dei segnali coinvolti. Tale effetto viene chiamato backward masking (mascheramento all'indietro), per il fatto che il suono dopo cancella quello prima.

Lo stesso succede per il passaggio da un alto livello ad un basso livello. In questo caso la durata dell'effetto è leggermente superiore, ed il suono a basso livello che segue viene cancellato da quello che lo precede. L'effetto viene chiamato forward masking (mascheramento in avanti).

Metodi percettivi MPEG (Motion Pictures Experts Group)

I metodi di compressione percettiva utilizzati dal consorzio MPEG sono ormai riconosciuti e standardizzati a livello mondiale. Nota a tutti è la rivoluzione innescata da MP3 nel campo della distribuzione commerciale della musica.

Il primo livello di standard è stato MPEG1, pensato per la memorizzazione su supporto digitale di audio e video. Per l'audio esistono tre livelli, detti layer, di complessità crescente. Il layer 1 opera una codifica sulla base del mascheramento in frequenza, il layer 2 opera con lo stesso principio ma con un modello psicoacustico più evoluto, mentre il layer 3 applica anche il forward e backward masking, oltre ad un modello percettivo estremamente sofisticato.

Il secondo livello è stato pensato per l'audio che accompagna il video, visto che prevede codifiche multicanale (ad esempio per sistemi tipo il Surround). Il tipo AAC è di recente sviluppo, ed è pensato per applicazioni in DVD.

Per quanto riguarda MPEG4, poco si sa, tranne che sarà ovviamente l'unione dei possibili bit rate e frequenze di campionamento dei precedenti standard, e si parla di codifica a strati, dove ogni singolo elemento che compone la scena o il fronte sonoro potrà essere codificato a parte mediante algoritmi di sintesi (sul tipo del MIDI).