Che cos'è il Gain Staging

Autore

Antony Tornver

Pubblicato

April 27, 0024

Il mondo dell'audio digitale può sembrare confuso. Ad esempio, nella fisica del suono, il volume viene misurato in decibel e i valori sono sempre positivi, ma nelle workstation digitali (DAW) i decibel diventano improvvisamente negativi. E cos'è questa strana magia?

Un altro mistero: sullo schermo della DAW a volte si vedono livelli di segnale superiori allo zero e talvolta compaiono anche decibel "positivi". Cosa significa tutto questo? Aiutatemi a capire! I termini "volume", "guadagno", "livello" sono costantemente presenti intorno a noi e su YouTube, ma qual è la differenza tra loro?

Proviamo a capirlo senza formule complicate. Dopotutto, siamo per lo più musicisti, non ingegneri. E allo stesso tempo impareremo come organizzare correttamente il cosiddetto "level headroom" nei nostri progetti musicali creati utilizzando una DAW.

In sostanza, non esiste il volume nella registrazione audio digitale. Cosa sono i decibel "naturali"

"Loudness" è più di una semplice parola che cerca di descrivere l'intensità della pressione sonora applicata alle orecchie. Per ogni persona, i suoni bassi e alti sono percepiti in modo soggettivo. Ciò che è semplicemente "alto" per una persona può essere "terribilmente alto" per un'altra.

Fare musica richiede sempre di tenere conto di criteri soggettivi, che a volte interferiscono con la comprensione tra i partecipanti al processo creativo. Pertanto, è importante avere una comprensione più oggettiva del volume quando si lavora su progetti musicali.

In natura non esiste un analogo diretto del volume, come nel mondo digitale. Il suono viaggia attraverso onde elastiche in un mezzo gassoso, liquido o solido. La fonte del suono è un corpo fisico che subisce vibrazioni meccaniche, come una corda o le corde vocali umane.

Proviamo a immaginarlo visivamente, anche se non in modo molto scientifico: dopo che la corda suona, vibra lateralmente (nello spazio tridimensionale) con una certa frequenza e ampiezza, creando onde elastiche intorno a sé.

Queste onde causano aree di alta e bassa pressione dell'aria che si propagano attraverso l'ambiente gassoso. I fisici descrivono queste vibrazioni come "pressione sonora".

Per misurare l'intensità della pressione sonora, gli scienziati hanno sviluppato una formula che tiene conto della pressione stessa, dell'impedenza acustica del mezzo e della media temporale. Questo ci permette di ottenere il valore quadratico medio dell'intensità sonora in un determinato punto nel tempo e nello spazio.

Nella musica, le vibrazioni sonore sono principalmente periodiche, simili alle vibrazioni di una corda. A volte valutiamo la loro intensità utilizzando il concetto di "ampiezza della pressione sonora", ma in realtà questo non è così importante.

Ciò che è veramente importante è che i decibel positivi (indicati con un "+") in fisica si riferiscono all'intensità della pressione sonora, ma solo in relazione a un punto specifico su una scala. I decibel sono unità relative, logaritmiche o sottomultipli e hanno senso solo se c'è un "punto di partenza".

In fisica, questo punto di partenza è un livello di pressione di 20 micropascal (µPa): questa è la soglia media dell'udito umano quando non percepisce ancora i suoni e sente il silenzio. Anche se il gatto probabilmente non sarebbe d'accordo.

Il grado di volume percepito da una persona viene studiato separatamente, utilizzando le proprie unità di misura, come i fondi, la composizione della frequenza e altri fattori. Ma quando si lavora con una DAW, questi dettagli non sono così importanti. La cosa principale per noi è non confondersi con i decibel.

0 decibel SPL (livello di pressione sonora) significa silenzio per una persona. Di seguito sono riportati alcuni valori tipici per il confronto:

15 dB - "Appena udibile" - è come il fruscio delle foglie;
35 dB - "Chiaramente udibile" - ad esempio, una conversazione smorzata, un ambiente tranquillo in una biblioteca o il rumore in un ascensore;
50 dB - "Chiaramente udibile" - è come una conversazione a volume medio, una strada tranquilla o il funzionamento di una lavatrice;
70 dB - "Rumoroso" - ad esempio, conversazioni ad alta voce a una distanza di 1 m, il rumore di una macchina da scrivere, una strada rumorosa o un aspirapolvere in funzione a una distanza di 3 m;
80 dB - "Molto rumoroso" - è come una sveglia rumorosa a una distanza di 1 m, un urlo, il rumore di una motocicletta con marmitta o il rumore del motore di un camion in funzione. Ascoltare tali suoni per lungo tempo può causare perdita dell'udito;
95 dB - "Molto rumoroso" - ad esempio, il rumore di un vagone della metropolitana a una distanza di 7 m o un pianoforte suonato ad alto volume a una distanza di 1 m;
130 dB – "Dolore": è simile al suono di una sirena, al rumore di caldaie in funzione, a un urlo molto forte o al rumore di una motocicletta senza marmitta;
160 dB - "Shock" è il livello al quale il timpano rischia di rompersi, come lo sparo di un fucile vicino all'orecchio, una competizione tra impianti audio per auto o l'onda d'urto di un aereo supersonico o un'esplosione di 0,002 megapascal.

Registrazione del suono. Volume e guadagno

Quando registriamo il suono, dobbiamo convertire le vibrazioni sonore periodiche nell'aria in vibrazioni elettriche. Dall'invenzione del fonautografo nel 1857, scienziati e ingegneri hanno sperimentato vari metodi di registrazione del suono.

È emerso che il modo più efficace ed economico è quello di utilizzare dispositivi elettrici come microfoni, pickup magnetici e piezoelettrici (per corde e talvolta strumenti a percussione come i pianoforti).

Questi dispositivi elettroacustici intercettano le fluttuazioni della pressione sonora nell'aria (i pickup magnetici registrano le vibrazioni delle corde e i sensori piezoelettrici registrano le vibrazioni del corpo) e le convertono in un segnale elettrico analogico.

Nel momento di questa trasformazione, il suono "scompare" per noi. Dopodiché, durante il nostro lavoro abbiamo a che fare solo con oscillazioni elettriche "silenziose".

Sono queste vibrazioni che vengono trasmesse all'interno delle apparecchiature musicali: amplificatori, effetti analogici, registratori a nastro, ecc. Affinché queste vibrazioni, amplificate, elaborate o semplicemente registrate su nastro magnetico, si trasformino nuovamente in suono, devono essere riconvertite in suono utilizzando un dispositivo speciale: le vibrazioni dell'aria. Questo dispositivo è chiamato altoparlante.

Un segnale analogico ha una proprietà fondamentale: è continuo nel tempo e in ogni millisecondo, ovvero almeno un milionesimo di secondo, ha un determinato parametro. Supponiamo che, nel caso di una rappresentazione elettronica analogica del suono, questo possa essere l'ampiezza (la massima diffusione dei valori dalla media).

Il segnale analogico ricevuto dal microfono ci mostra una cronologia dei frequenti cambiamenti della pressione sonora in un determinato periodo di tempo. Cantiamo, ad esempio, una canzone in cui abbiamo previsto 2 minuti di voce nelle strofe e nei ritornelli e, durante la registrazione, otteniamo una sorta di cronaca dei cambiamenti della pressione sonora sulla membrana del microfono.

I segnali analogici elettrici ottenuti convertendo le vibrazioni sonore sono più facilmente rappresentabili sotto forma di grafici sinusoidali. I suoni musicali e non musicali sono, infatti, una complessa somma di sinusoidi.

Ma può anche essere semplice: quando il generatore di toni analogico ci fornisce una singola onda sinusoidale con una frequenza, ad esempio, di 440 Hertz (nota "A"), sentiamo un "bip" chiaro ma noioso dall'altoparlante.

E finalmente arriviamo al guadagno. La parola guadagno significa aumento. Ne impostiamo il livello con i regolatori sugli amplificatori e sulle schede audio. Questo differisce dalle manopole di controllo del "volume" o del "livello di pressione sonora" (Livello) in quanto possiamo amplificare il segnale oltre il limite oltre il quale inizia la sua distorsione.

Ora diamo un'occhiata più da vicino: la nostra sinusoide (ricordiamo che simboleggia e visualizza per noi un segnale analogico all'interno di un apparecchio elettrico) è costituita da "colline" e "valli" simmetriche che si ripetono periodicamente.

Possiamo aumentare l'altezza delle "colline" e la profondità delle "valli" (cioè l'ampiezza) o, in altre parole, "rafforzare il segnale", "aggiungere guadagno" non all'infinito.

Non parleremo qui della progettazione dei circuiti dei dispositivi, ma diamo per scontato che ciascuno di essi abbia un limite fisico oltre il quale il dispositivo può aumentare l'ampiezza del segnale in modo proporzionale, senza "romperlo".

Quando il guadagno raggiunge un punto critico e supera i valori consentiti, il circuito fisico del dispositivo inizia a tagliare le "montagne" dall'alto e a rifilare le "valli" dal basso.

Nel gergo ingegneristico questo fenomeno è chiamato "clipping analogico". In questo caso, oltre al segnale audio utile, dagli altoparlanti potrebbero provenire sibili, crepitii e fruscii. Nell'ingegneria audio questo fenomeno è chiamato anche "distorsione non lineare".

Ora possiamo capire che il livello del volume nella tecnologia musicale è una variazione dell'ampiezza del segnale PRIMA del limite oltre il quale inizia a distorcersi. E il "guadagno" può facilmente superare questi limiti.

Il paradosso è che quando il guadagno viene aumentato in misura significativa oltre il valore consentito, la pressione sonora creata dagli altoparlanti (a cui viene inviato il segnale elaborato) non sempre aumenta. Quanto sopra è vero per l'elaborazione audio digitale.

Supponiamo che all'interno di una DAW che invia il segnale elaborato alla scheda audio, quando si esegue il clipping e si aumenta il guadagno sulla console virtuale fino a valori folli, non si verifichi un aumento reale del livello del volume. Negli altoparlanti dei monitor audio sentiamo solo l'aggiunta di una distorsione sempre maggiore. Ciò è dovuto alla speciale rappresentazione del suono in "digitale", di cui parleremo brevemente più avanti.

Per ora, torniamo ai "decibel negativi". Ricordiamo che i dB sono unità relative che hanno senso solo se correlate a un punto di riferimento.

Nella registrazione del suono, tale punto è considerato il livello del segnale oltre il quale inizia la distorsione. È designato come "zero". Tutto ciò che si trova nella zona "a zero" è un segnale senza clipping, il cui livello è indicato in dB con un "meno". Tutto ciò che è al di sopra è un segnale distorto con un taglio di ampiezza ("picchi e valli"). E lo indicano in dB con un "più".

È consuetudine visualizzare il livello del volume in decibel "negativi" sia sui dispositivi analogici che su quelli digitali. È comodo e visivo.

Cosa succede al volume nel digitale?

Nelle nostre schede audio, il segnale analogico viene prima amplificato leggermente da un preamplificatore e poi fatto passare attraverso un convertitore analogico-digitale (ADC). Per semplificare, ecco cosa fa un ADC:

1. Taglia una banda di frequenza, rimuovendo elementi non necessari, ad esempio i suoni al di sotto dei 20 Hertz, che una persona non è ancora in grado di sentire;
2. L'ADC divide un segnale continuo in un certo numero di valori individuali (campionamento e quantizzazione), ovvero trasforma la nostra onda sinusoidale regolare in una sequenza di "colonne".

La frequenza di campionamento determina il numero di tali "colonne". La profondità di quantizzazione, o "bit depth", determina la precisione di ciascuna rappresentazione delle "colonne".

Maggiore è la frequenza di campionamento (più barre), più il segnale digitale è vicino all'onda sinusoidale regolare originale.

La profondità di bit influisce sulla precisione della misurazione del segnale in un determinato momento. Maggiore è il numero di bit, minore è l'errore. 16 bit per l'audio non sono male, 24 bit sono ancora meglio.

L'ADC codifica o "digitalizza" ogni "colonna", rappresentandola come un numero specifico con un numero di serie.

Nelle nostre stazioni audio digitali, il suono fisico, prima convertito in un segnale analogico e poi in un segnale digitale utilizzando un ADC, diventa un insieme di astrazioni matematiche. È importante comprendere che il suono è solo matematica. Non esiste un vero e proprio "suono" nei cavi o nel software.

Anche il livello di volume "zero" in una stazione audio digitale, oltre il quale inizia la distorsione, è condizionale. Per una profondità ADC a 24 bit, lo "zero digitale" è costituito da sole 24 "celle" binarie, ciascuna contenente il valore "1".

Poiché la venticinquesima cella e tutte quelle successive mancano, un segnale che supera lo "zero" semplicemente non può aumentare di volume. Al contrario, viene aggiunta sempre più distorsione.

Quando si lavora con i livelli di volume nelle stazioni audio digitali, è importante evitare la distorsione. Questo perché il segnale digitale raccolto dai bus master della nostra stazione audio viene inviato a un convertitore digitale-analogico (DAC), che lo trasmette ai monitor audio o alle cuffie. Qui sentiamo la distorsione (clipping), che indica un danno alla traccia audio. A volte la distorsione può essere piacevole, come quando si aggiunge una leggera distorsione del nastro (tape), che i tecnici del suono possono utilizzare intenzionalmente.

Come gestire i livelli di volume nella tua DAW

Le etichette discografiche occidentali e orientali, che hanno tecnici del suono nel proprio staff o stipulano contratti con loro, di solito richiedono ai musicisti mix e stem senza masterizzazione con livelli di volume non superiori a -6 dB al picco. Questo è necessario per avere un "headroom di volume" per ulteriori elaborazioni.

È importante capire che stiamo parlando di picchi, non del livello medio di pressione sonora di una colonna sonora, che viene misurato in RMS o LUF (volume medio formale combinato con il volume percepito).

La logica e l'esperienza ci dicono che quando registriamo voci, strumenti dal vivo e sintetizzatori attraverso una scheda audio, possiamo controllare il livello di guadagno in ingresso e vedere il livello in dB all'interno della DAW.

Cercate di garantire che i picchi del segnale registrato in ingresso non superino mai -6, -5 dB è accettabile, e non permettete che il "reddito" raggiunga 0 dB.

Utilizzando sintetizzatori virtuali e strumenti campionati all'interno della DAW, è possibile sentirsi un po' più liberi. Tuttavia, è necessario che ci sia sempre un "headroom" nel volume alle uscite degli strumenti virtuali e dei plug-in di elaborazione.

Quando inizi un arrangiamento in un progetto, si consiglia di impostare immediatamente i fader della console DAW per tutte le tracce a -10, o preferibilmente -12 dB. Questo creerà una riserva di volume.

È importante ricordare che la colonna sonora di solito contiene elementi drammatici. Gli eventi musicali si sviluppano, portando a momenti culminanti. E quando molti strumenti entrano nel forte contemporaneamente, il livello totale del segnale sul bus master supererà necessariamente il livello del segnale di qualsiasi traccia particolare. Pertanto, l'etichetta per l'elaborazione finale (mastering) dovrebbe fornire un file in cui i picchi non superino i -6 dB.

È meglio evitare di superare questo livello sul bus master durante l'arrangiamento e il pre-mixaggio piuttosto che perdere tempo ad abbassare il livello di ogni traccia in un secondo momento. È inoltre necessario essere consapevoli della possibilità di automazione del volume, che può portare a ulteriori problemi. È consigliabile ottenere nel mix preliminare la stessa immagine che era stata originariamente prevista.

I timori che un mix risulti "silenzioso" sono spesso infondati. Il suono in una DAW non è mai veramente "silenzioso": è solo un'astrazione matematica. Un ingegnere di un'etichetta discografica a cui vengono forniti degli stem o un mix dry con picchi di -8 o addirittura -10 dB non rimarrà deluso. Sarà lui stesso ad apportare tutte le modifiche necessarie.

Quando si lavora con i livelli di volume nella DAW, ci sono alcune regole da seguire che aiutano a evitare la maggior parte dei problemi.

Autore

Antony Tornver

Pubblicato

April 27, 0024