Czym jest Gain Staging

Świat cyfrowego audio może wydawać się zagmatwany. Na przykład w fizyce dźwięku głośność mierzy się w decybelach, a wartości są zawsze dodatnie, ale w cyfrowych stacjach roboczych (DAW) decybele nagle stają się ujemne. Czym jest ta dziwna magia?
Kolejna zagadka: na ekranie DAW czasami można zobaczyć poziomy sygnału powyżej zera, a czasami pojawiają się nawet „dodatnie” decybele. Co to wszystko oznacza? Pomóż mi to zrozumieć! Terminy „głośność”, „wzmocnienie”, „poziom” są stale słyszane wokół nas i na YouTube – ale jaka jest między nimi różnica?
Spróbujmy to zrozumieć bez skomplikowanych wzorów. W końcu jesteśmy głównie muzykami, a nie inżynierami. Jednocześnie nauczymy się, jak prawidłowo zorganizować tak zwany „level headroom” w naszych projektach muzycznych tworzonych przy użyciu DAW.
W cyfrowym nagraniu audio zasadniczo nie ma głośności. Czym są „naturalne” decybele
„Głośność” to coś więcej niż tylko słowo, które próbuje opisać intensywność ciśnienia akustycznego oddziałującego na uszy. Każda osoba subiektywnie postrzega ciche i głośne dźwięki. To, co dla jednej osoby jest po prostu „głośne”, dla innej może być „strasznie głośne”.
Tworzenie muzyki zawsze wymaga uwzględnienia subiektywnych kryteriów, co czasami utrudnia porozumienie między uczestnikami procesu twórczego. Dlatego podczas pracy nad projektami muzycznymi ważne jest bardziej obiektywne rozumienie głośności.
W naturze nie ma bezpośredniego odpowiednika głośności, jak w świecie cyfrowym. Dźwięk rozchodzi się poprzez fale sprężyste w ośrodku gazowym, ciekłym lub stałym. Źródłem dźwięku jest ciało fizyczne, które doświadcza drgań mechanicznych, takie jak struna lub struny głosowe człowieka.
Spróbujmy to sobie wyobrazić wizualnie, choć nie do końca naukowo: po wydobyciu dźwięku struna wibruje na boki (w przestrzeni trójwymiarowej) z określoną częstotliwością i amplitudą, tworząc wokół siebie fale sprężyste.
Fale te powodują powstawanie obszarów wysokiego i niskiego ciśnienia powietrza, które rozprzestrzeniają się w środowisku gazowym. Fizycy opisują te drgania jako „ciśnienie akustyczne”.
Aby zmierzyć intensywność ciśnienia akustycznego, naukowcy opracowali wzór, który uwzględnia samo ciśnienie, impedancję akustyczną ośrodka i uśrednienie czasowe. Pozwala to uzyskać wartość średnią kwadratową intensywności dźwięku w określonym punkcie czasu i przestrzeni.
W muzyce drgania dźwiękowe są głównie okresowe, podobne do drgań struny. Czasami oceniamy ich intensywność za pomocą pojęcia „amplituda ciśnienia akustycznego”, ale w rzeczywistości nie jest to tak ważne.
Naprawdę ważne jest to, że dodatnie decybele (oznaczone symbolem „+”) w fizyce odnoszą się do natężenia ciśnienia akustycznego, ale tylko w odniesieniu do określonego punktu na skali. Decybele są jednostkami względnymi, logarytmicznymi lub podwielokrotnymi i mają sens tylko wtedy, gdy istnieje „punkt początkowy”.
W fizyce tym punktem początkowym jest poziom ciśnienia 20 mikropascalów (µPa) – jest to średni próg słyszalności człowieka, kiedy nie odbiera on jeszcze dźwięków i odczuwa ciszę. Chociaż kot prawdopodobnie nie zgodziłby się z tym.
Stopień postrzeganej głośności przez człowieka jest badany oddzielnie, przy użyciu własnych jednostek miary, takich jak fundusze, skład częstotliwości i inne czynniki. Jednak podczas pracy z DAW szczegóły te nie są tak ważne. Najważniejsze dla nas jest, aby nie pomylić się z decybelami.
0 decybeli SPL (poziom ciśnienia akustycznego) oznacza dla człowieka ciszę. Poniżej przedstawiono kilka typowych wartości dla porównania:
- 15 dB – „ledwo słyszalne” – przypomina szelest liści;
- 35 dB – „wyraźnie słyszalne” – na przykład stłumiona rozmowa, ciche otoczenie w bibliotece lub hałas w windzie;
- 50 dB – „wyraźnie słyszalne” – to jak rozmowa przy średniej głośności, cicha ulica lub praca pralki;
- 70 dB – „głośno” – na przykład głośne rozmowy w odległości 1 m, hałas maszyny do pisania, hałaśliwa ulica lub pracujący odkurzacz w odległości 3 m;
- 80 dB – „Bardzo głośny” – to np. głośny budzik w odległości 1 m, krzyk, odgłos motocykla z tłumikiem lub odgłos pracującego silnika ciężarówki. Długotrwałe słuchanie takich dźwięków może spowodować utratę słuchu;
- 95 dB – „bardzo głośny” – na przykład hałas wagonu metra w odległości 7 m lub głośna gra na fortepianie w odległości 1 m;
- 130 dB – „Ból” – to jak syrena, hałas kotłów nitowanych, najgłośniejszy krzyk lub motocykl bez tłumika;
- 160 dB – „Szok” to poziom, przy którym błona bębenkowa może ulec pęknięciu, np. wystrzał ze strzelby blisko ucha, konkurs systemów audio w samochodach lub fala uderzeniowa z samolotu naddźwiękowego lub eksplozja o sile 0,002 megapaskala.
Nagrywanie dźwięku. Głośność i wzmocnienie
Podczas nagrywania dźwięku musimy przekształcić okresowe drgania dźwiękowe w powietrzu na drgania elektryczne. Od czasu wynalezienia fonautografu w 1857 roku naukowcy i inżynierowie eksperymentowali z różnymi metodami nagrywania dźwięku.
Okazuje się, że najskuteczniejszym i najtańszym sposobem jest użycie urządzeń elektrycznych, takich jak mikrofony, przetworniki magnetyczne i piezoelektryczne (do strun, a czasem instrumentów perkusyjnych, takich jak fortepiany).
Urządzenia elektroakustyczne przechwytują wahania ciśnienia powietrza (przetworniki magnetyczne rejestrują drgania strun, a czujniki piezoelektryczne rejestrują drgania korpusu) i przekształcają je w analogowy sygnał elektryczny.
W momencie tej transformacji dźwięk „znika” dla nas. Następnie podczas naszej pracy mamy do czynienia wyłącznie z „cichymi” oscylacjami elektrycznymi.
To właśnie te drgania są przekazywane wewnątrz sprzętu muzycznego – wzmacniaczy, efektów analogowych, magnetofonów itp. Aby te drgania, wzmocnione, przetworzone lub po prostu nagrane na taśmie magnetycznej, ponownie zamieniły się w dźwięk, muszą zostać przekształcone z powrotem w dźwięk za pomocą specjalnego urządzenia – drgań powietrza. Urządzenie to nazywa się głośnikiem.
Sygnał analogowy ma główną właściwość – jest ciągły w czasie i w każdej milisekundzie – lub co najmniej w jednej milionowej sekundy – ma określony parametr. Powiedzmy, że w przypadku analogowej elektronicznej reprezentacji dźwięku może to być amplituda (największy rozrzut wartości od średniej).
Sygnał analogowy odbierany z mikrofonu pokazuje nam historię częstych zmian ciśnienia akustycznego w danym okresie czasu. Śpiewamy, powiedzmy, piosenkę, w której zaplanowaliśmy 2 minuty wokalu w zwrotkach i refrenach, a podczas nagrywania otrzymujemy niejako kronikę zmian ciśnienia akustycznego na membranie mikrofonu.
Analogowe sygnały elektryczne uzyskane poprzez konwersję drgań dźwiękowych najłatwiej przedstawić w postaci wykresów sinusoidalnych. Dźwięki muzyczne i nie muzyczne są w rzeczywistości złożoną sumą sinusoid.
Ale może to być również proste – gdy analogowy generator tonów daje nam jedną falę sinusoidalną o częstotliwości, powiedzmy, 440 herców (nuta „A”), słyszymy z głośnika wyraźny, ale nudny „sygnał dźwiękowy”.
I wreszcie dochodzimy do wzmocnienia. Słowo „gain” oznacza wzmocnienie. Jego poziom ustawiamy za pomocą regulatorów na wzmacniaczach i kartach dźwiękowych. Różni się to od pokręteł regulacji „głośności” lub „poziomu ciśnienia akustycznego” (Level) tym, że możemy wzmocnić sygnał powyżej granicy, powyżej której zaczyna się jego zniekształcenie.
Przyjrzyjmy się temu bliżej: nasza sinusoidy (pamiętajmy, że symbolizuje ona i wizualizuje dla nas sygnał analogowy wewnątrz urządzenia elektrycznego) to symetryczne, okrągłe „wzgórza” i „dolina”, które powtarzają się cyklicznie.
Możemy zwiększyć wysokość „wzgórz” i głębokość „dolin” (czyli amplitudę) lub, innymi słowy, „wzmocnić sygnał”, „dodać wzmocnienie”, ale nie w nieskończoność.
Nie będziemy tutaj omawiać konstrukcji obwodów urządzeń, po prostu przyjmijmy na wiarę, że każde z nich ma fizyczną granicę, do której urządzenie może proporcjonalnie zwiększać amplitudę sygnału – bez „uszkadzania” go.
Kiedy wzmocnienie osiąga punkt krytyczny i przekracza dopuszczalne wartości, fizyczny obwód urządzenia zaczyna odcinać „góry” od góry i przycinać „doliny” od dołu.
W żargonie inżynieryjnym nazywa się to „analogowym clippingiem”. W tym przypadku, oprócz użytecznego sygnału dźwiękowego, z głośników mogą dochodzić świsty, grzechotanie i trzaski. W inżynierii dźwięku nazywa się to również „zniekształceniem nieliniowym”.
Teraz możemy zrozumieć, że poziom głośności w technologii muzycznej jest zmianą amplitudy sygnału PRZED granicą, powyżej której zaczyna on ulegać zniekształceniu. A „wzmocnienie” może łatwo przekroczyć te granice.
Paradoks polega na tym, że gdy wzmocnienie zostanie zwiększone o znaczną wartość powyżej dopuszczalnej wartości, ciśnienie akustyczne wytwarzane przez głośniki (do których wysyłany jest przetworzony sygnał) nie zawsze wzrasta. Powyższe dotyczy cyfrowego przetwarzania dźwięku.
Załóżmy, że w programie DAW, który wysyła przetworzony sygnał do karty dźwiękowej, podczas przesterowania i zwiększenia wzmocnienia na konsoli wirtualnej do szalonych wartości, nie następuje rzeczywisty wzrost poziomu głośności. W głośnikach monitorów audio słyszymy tylko coraz większe zniekształcenie. Wynika to ze specjalnej reprezentacji dźwięku w „cyfrowym”, o czym powiemy kilka słów poniżej.
Na razie wróćmy do „ujemnych decybeli”. Pamiętajmy, że dB są jednostkami względnymi, które mają sens tylko wtedy, gdy odnoszą się do jakiegoś punktu odniesienia.
W nagrywaniu dźwięku za taki punkt przyjmuje się poziom sygnału, powyżej którego zaczynają się zniekształcenia. Jest on oznaczony jako „zero”. Wszystko w strefie „do zera” to sygnał bez przesterowania, którego poziom jest wskazywany w dB z „minusem”. Wszystko powyżej to zniekształcony sygnał z odcięciem amplitudy („szczyty i doliny”). Oznaczają go w dB z „plusem”.
Zwyczajowo poziom głośności jest wyświetlany w „ujemnych” decybelach zarówno na urządzeniach analogowych, jak i cyfrowych. Jest to wygodne i przejrzyste.
Co dzieje się z głośnością w technologii cyfrowej?
W naszych kartach dźwiękowych sygnał analogowy jest najpierw lekko wzmacniany przez przedwzmacniacz, a następnie przepuszczany przez przetwornik analogowo-cyfrowy (ADC). Upraszczając, oto co robi ADC:
- Odcina pasmo częstotliwości, usuwając niepotrzebne elementy, na przykład dźwięki poniżej 20 herców, których człowiek nadal nie słyszy;
- ADC dzieli ciągły sygnał na określoną liczbę poszczególnych wartości (próbkowanie i kwantyzacja), czyli w rzeczywistości zamienia naszą płynną falę sinusoidalną w sekwencję „kolumn”.
Częstotliwość próbkowania określa liczbę takich „kolumn”. Głębia bitowa kwantyzacji, czyli „głębia bitowa”, określa dokładność reprezentacji każdej „kolumny”.
Im wyższa częstotliwość próbkowania (więcej słupków), tym sygnał cyfrowy jest bliższy oryginalnej płynnej fali sinusoidalnej.
Głębia bitowa wpływa na dokładność pomiaru sygnału w danym momencie. Im więcej bitów, tym mniejszy błąd. 16 bitów dla audio to niezły wynik, 24 bity są jeszcze lepsze.
- ADC koduje lub „cyfryzuje” każdą „kolumnę”, przedstawiając ją jako konkretną liczbę z numerem seryjnym.
W naszych cyfrowych stacjach audio fizyczny dźwięk, najpierw przekształcony w sygnał analogowy, a następnie w sygnał cyfrowy za pomocą przetwornika ADC, staje się zestawem matematycznych abstrakcji. Ważne jest zrozumienie, że dźwięk to tylko matematyka. W przewodach lub oprogramowaniu nie ma prawdziwego „dźwięku”.
Poziom głośności „zero” w cyfrowej stacji audio, powyżej którego zaczyna się zniekształcenie, jest również warunkowy. W przypadku 24-bitowej głębi przetwornika ADC „cyfrowe zero” to po prostu 24 binarne „komórki”, z których każda zawiera wartość „1”.
Ponieważ brakuje 25. i wszystkich kolejnych komórek, sygnał przekraczający „zero” po prostu nie może zwiększyć głośności. Zamiast tego dodaje się do niego coraz więcej zniekształceń.
Podczas pracy z poziomami głośności w cyfrowych stacjach audio ważne jest, aby unikać zniekształceń. Ponieważ sygnał cyfrowy zebrany z magistrali głównej naszej stacji audio jest wysyłany do przetwornika cyfrowo-analogowego (DAC), który wysyła go do monitorów audio lub słuchawek. Tutaj słyszymy zniekształcenia (clipping), które wskazują na uszkodzenie ścieżki audio. Czasami zniekształcenia mogą być przyjemne, na przykład podczas dodawania niewielkich zniekształceń taśmowych (tape), które inżynierowie dźwięku mogą celowo wykorzystać.
Jak radzić sobie z poziomami głośności w DAW
Wytwórnie płytowe zarówno na Zachodzie, jak i na Wschodzie, które zatrudniają inżynierów dźwięku lub zawierają z nimi umowy, zazwyczaj wymagają od muzyków miksów i ścieżek bez masteringu, o poziomach głośności nieprzekraczających -6 dB w szczycie. Potrzebują tego, aby mieć „rezerwę głośności” do dalszego przetwarzania.
Ważne jest, aby zrozumieć, że mówimy o wartościach szczytowych, a nie o średnim poziomie ciśnienia akustycznego ścieżki dźwiękowej, który jest mierzony w RMS lub LUF (formalna średnia głośność w połączeniu z postrzeganą głośnością).
Logika i doświadczenie podpowiadają, że podczas nagrywania głosów, instrumentów na żywo i syntezatorów za pomocą karty dźwiękowej możemy kontrolować poziom wzmocnienia na wejściu i obserwować poziom -dB w DAW.
Staraj się, aby szczyty nagranego sygnału na wejściu nigdy nie przekraczały -6, -5 dB jest dopuszczalne, i nie pozwól, aby „dochód” osiągnął 0 dB.
Korzystając z wirtualnych syntezatorów i instrumentów samplowanych w programie DAW, można poczuć się nieco swobodniej. Konieczne jest jednak, aby na wyjściach instrumentów wirtualnych i wtyczek przetwarzających zawsze pozostawał „zapas” głośności.
Rozpoczynając aranżację w projekcie, zaleca się natychmiastowe ustawienie suwaków konsoli DAW dla wszystkich ścieżek na -10, a najlepiej -12 dB. Stworzy to rezerwę głośności.
Należy pamiętać, że ścieżka dźwiękowa zazwyczaj zawiera elementy dramatyczne. Wydarzenia muzyczne rozwijają się, prowadząc do kulminacji. A kiedy wiele instrumentów wchodzi jednocześnie w forte, całkowity poziom sygnału na magistrali głównej koniecznie przekroczy poziom sygnału dowolnej ścieżki. Dlatego wytwórnia płytowa zajmująca się ostatecznym przetwarzaniem (masteringiem) powinna dostarczyć plik, w którym szczyty nie przekraczają -6 dB.
Lepiej jest unikać przekraczania tego poziomu na magistrali głównej podczas aranżacji i wstępnego miksowania, niż tracić czas na obniżanie poziomu każdej ścieżki później. Należy również pamiętać o możliwości automatyzacji głośności, która może prowadzić do dodatkowych problemów. Wstępny miks powinien odzwierciedlać pierwotnie zamierzony obraz.
Obawy, że miks będzie brzmiał „cicho”, są często bezpodstawne. Dźwięk w DAW nigdy nie jest naprawdę „cichy” – to tylko matematyczna abstrakcja. Inżynier wytwórni, który otrzymał stem lub suchy miks z pikami -8 lub nawet -10 dB, nie będzie rozczarowany. Sam dokona wszystkich niezbędnych korekt.
Podczas pracy z poziomami głośności w programie DAW należy przestrzegać kilku zasad, które pomogą uniknąć większości problemów.








