O que é o Gain Staging

Autor

Antony Tornver

Publicado

April 27, 0024

O mundo do áudio digital pode parecer confuso. Por exemplo, na física do som, o volume é medido em decibéis, e os valores são sempre positivos, mas nas estações de trabalho digitais (DAWs), os decibéis de repente tornam-se negativos. E o que é essa estranha magia?

Outro mistério: na tela da DAW, às vezes é possível ver níveis de sinal acima de zero e, às vezes, até decibéis «positivos» aparecem. O que tudo isso significa? Ajude-me a entender! Os termos «volume», «ganho» e «nível» são constantemente ouvidos ao nosso redor e no YouTube, mas qual é a diferença entre eles?

Vamos tentar entender isso sem fórmulas complicadas. Afinal, somos principalmente músicos, não engenheiros. E, ao mesmo tempo, aprenderemos como organizar adequadamente o chamado “headroom de nível” em nossos projetos musicais criados usando uma DAW.

Essencialmente, não há volume na gravação de áudio digital. O que são decibéis «naturais»

“Volume” é mais do que apenas uma palavra que tenta descrever a intensidade da pressão sonora aplicada aos ouvidos. Para cada pessoa, sons baixos e altos são percebidos subjetivamente. O que é apenas “alto” para uma pessoa pode ser “terrivelmente alto” para outra.

Fazer música requer sempre levar em consideração critérios subjetivos, o que às vezes interfere na compreensão entre os participantes do processo criativo. Portanto, é importante ter uma compreensão mais objetiva do volume ao trabalhar em projetos musicais.

Na natureza, não existe um análogo direto do volume, como no mundo digital. O som viaja através de ondas elásticas num meio gasoso, líquido ou sólido. A fonte do som é um corpo físico que sofre vibrações mecânicas, como uma corda ou as cordas vocais humanas.

Vamos tentar imaginar isso visualmente, embora não de forma muito científica: depois que a corda soa, ela vibra lateralmente (no espaço tridimensional) com uma certa frequência e amplitude, criando ondas elásticas ao seu redor.

Essas ondas causam áreas de alta e baixa pressão atmosférica que se propagam pelo ambiente gasoso. Os físicos descrevem essas vibrações como “pressão sonora”.

Para medir a intensidade da pressão sonora, os cientistas desenvolveram uma fórmula que leva em consideração a própria pressão, a impedância acústica do meio e a média temporal. Isso permite obter o valor quadrático médio da intensidade sonora em um determinado ponto no tempo e no espaço.

Na música, as vibrações sonoras são principalmente periódicas, semelhantes às vibrações de uma corda. Às vezes, avaliamos a sua intensidade usando o conceito de "amplitude da pressão sonora", mas, na realidade, isso não é tão importante.

O que é realmente importante é que os decibéis positivos (denotados por um «+») na física se referem à intensidade da pressão sonora, mas apenas em relação a um ponto específico numa escala. Os decibéis são unidades relativas, logarítmicas ou submúltiplas e só fazem sentido se houver um «ponto de partida».

Na física, esse ponto de partida é um nível de pressão de 20 micropascais (µPa) – esse é o limiar médio da audição humana quando ainda não se percebe sons e se sente silêncio. Embora o gato provavelmente não concordasse com isso.

O grau de intensidade sonora percebido por uma pessoa é estudado separadamente, utilizando as suas próprias unidades de medida, tais como fundos, a sua composição de frequência e outros fatores. Mas quando se trabalha com uma DAW, estes detalhes não são tão importantes. O principal para nós é não nos confundirmos com os decibéis.

0 decibéis SPL (nível de pressão sonora) significa silêncio para uma pessoa. Abaixo estão alguns valores típicos para comparação:

15 dB – «Quase inaudível» – é como o farfalhar das folhas;
35 dB – «Claramente audível» – por exemplo, uma conversa abafada, um ambiente silencioso numa biblioteca ou o ruído num elevador;
50 dB – «Claramente audível» – é como uma conversa em volume médio, uma rua tranquila ou o funcionamento de uma máquina de lavar roupa;
70 dB – «Barulhento» – por exemplo, conversas altas a uma distância de 1 m, o ruído de uma máquina de escrever, uma rua barulhenta ou um aspirador a funcionar a uma distância de 3 m;
80 dB – «Muito ruidoso» – é como um despertador alto a uma distância de 1 m, um grito, o som de uma motocicleta com silenciador ou o som do motor de um camião em funcionamento. Ouvir esses sons por muito tempo pode causar perda auditiva;
95 dB – «Muito ruidoso» – por exemplo, o ruído de um vagão de metro a uma distância de 7 m ou um piano alto a tocar a uma distância de 1 m;
130 dB – «Dor» é como uma sirene, o ruído de caldeiras a ferver, o grito mais alto ou uma motocicleta sem silenciador;
160 dB – «Choque» é o nível em que o tímpano provavelmente se romperá, como um tiro de espingarda perto do ouvido, uma competição de som de carros ou a onda de choque de um avião supersónico ou uma explosão de 0,002 megapascais.

Gravação de som. Volume e ganho

Quando gravamos som, temos de converter as vibrações sonoras periódicas no ar em vibrações elétricas. Desde a invenção do fonautógrafo em 1857, cientistas e engenheiros têm experimentado vários métodos de gravação de som.

Verificou-se que a forma mais eficaz e barata é utilizar dispositivos elétricos, como microfones, captadores magnéticos e piezoelétricos (para cordas e, por vezes, instrumentos de percussão, como pianos).

Esses dispositivos eletroacústicos interceptam as flutuações da pressão sonora do ar (os captadores magnéticos registam as vibrações das cordas e os sensores piezoelétricos registam as vibrações do corpo) e convertem-nas em um sinal elétrico analógico.

No momento dessa transformação, o som “desaparece” para nós. Depois disso, lidamos apenas com oscilações elétricas “silenciosas” durante o nosso trabalho.

São essas vibrações que são transmitidas dentro dos equipamentos musicais – amplificadores, efeitos analógicos, gravadores, etc. Para que essas vibrações, sejam elas amplificadas, processadas ou simplesmente gravadas em fita magnética, se transformem novamente em som, elas devem ser convertidas de volta em som usando um dispositivo especial de vibrações do ar. Esse dispositivo é chamado de alto-falante.

Um sinal analógico tem a propriedade principal de ser contínuo no tempo e, a cada milésimo de segundo – ou pelo menos um milionésimo de segundo –, ter um determinado parâmetro. Digamos que, no caso de uma representação eletrónica analógica do som, esse parâmetro poderia ser a amplitude (a maior variação de valores em relação à média).

O sinal analógico recebido do microfone mostra-nos um histórico de mudanças frequentes na pressão sonora ao longo de um período de tempo. Cantamos, digamos, uma música na qual planejamos 2 minutos de vocais nos versos e refrões e, ao gravar, obtemos, por assim dizer, uma crónica das mudanças na pressão sonora na membrana do microfone.

Os sinais analógicos elétricos obtidos pela conversão das vibrações sonoras são mais facilmente representados na forma de gráficos semelhantes a senoidais. Os sons musicais e não musicais são, na verdade, uma soma complexa de senoidais.

Mas também podem ser simples – quando o gerador de tons analógicos nos dá uma única onda senoidal com uma frequência de, digamos, 440 Hertz (nota «A»), ouvimos um «bip» claro, mas enfadonho, a sair do altifalante.

E, finalmente, chegamos ao ganho. A palavra ganho significa ganho. Definimos o seu nível com reguladores em amplificadores e placas de som. Isso difere dos botões de controlo de «volume» ou «nível de pressão sonora» (Nível) na medida em que podemos amplificar o sinal além do limite a partir do qual começa a sua distorção.

Agora vamos dar uma olhada mais de perto: a nossa sinusóide (lembre-se de que ela simboliza e visualiza para nós um sinal analógico dentro de um aparelho elétrico) é composta por “colinas” e “vales” simétricos que se repetem periodicamente.

Podemos aumentar a altura das «colinas» e a profundidade dos «vales» (ou seja, a amplitude) ou, em outras palavras, «fortalecer o sinal», «adicionar ganho», mas não indefinidamente.

Não falaremos aqui sobre o design do circuito dos dispositivos, vamos apenas acreditar que cada um deles tem um limite físico até o qual o dispositivo pode aumentar a amplitude do sinal proporcionalmente – sem «quebrá-lo».

Quando o ganho atinge um ponto crítico e ultrapassa os valores permitidos, o circuito físico do dispositivo começa a cortar as «montanhas» por cima e aparar os «vales» por baixo.

Na linguagem da engenharia, isso é chamado de “clipping analógico”. Nesse caso, além do sinal de som útil, pode-se ouvir chiados, estalos e crepitações nos alto-falantes. Na engenharia de áudio, isso também é chamado de “distorção não linear”.

Agora podemos entender que o nível de volume na tecnologia musical é uma mudança na amplitude do sinal ANTES do limite além do qual ele começa a distorcer. E o «ganho» pode facilmente ultrapassar esses limites.

O paradoxo é que, quando o ganho é aumentado em quantidades significativas além do valor permitido, a pressão sonora criada pelos altifalantes (para os quais o sinal processado é enviado) nem sempre aumenta. O acima exposto é verdadeiro para o processamento de áudio digital.

Digamos que, dentro de uma DAW que envia o sinal processado para a placa de som, ao cortar e aumentar o ganho no console virtual para valores absurdos, não ocorre nenhum aumento real no nível de volume. Nos altifalantes dos monitores de áudio, ouvimos apenas a adição de mais e mais distorção. Isso se deve à representação especial do som em “digital”, sobre a qual falaremos um pouco mais adiante.

Por enquanto, vamos voltar aos “decibéis negativos”. Lembre-se de que os dB são unidades relativas que só fazem sentido se estiverem relacionadas a algum ponto de referência.

Na gravação de som, esse ponto é considerado o nível de sinal além do qual a distorção começa. Ele é designado como “zero”. Tudo na zona “para zero” é um sinal sem clipping, cujo nível é indicado em dB com um “menos”. Tudo acima disso é um sinal distorcido com um corte na amplitude (“picos e vales”). E eles o denotam em dB com um “mais”.

É habitual exibir o nível de volume em decibéis «negativos» em dispositivos analógicos e digitais. É conveniente e visual.

O que acontece com o volume no digital?

Nas nossas placas de som, o sinal analógico é primeiro amplificado ligeiramente por um pré-amplificador e, em seguida, passa por um conversor analógico-digital (ADC). Para simplificar, isto é o que um ADC faz:

1. Corta uma banda de frequência, removendo coisas desnecessárias, por exemplo, sons abaixo de 20 Hertz, que uma pessoa ainda não consegue ouvir;
2. O ADC divide um sinal contínuo em um certo número de valores individuais (amostragem e quantização), ou seja, ele realmente transforma a nossa onda senoidal suave em uma sequência de “colunas”.

A frequência de amostragem determina o número dessas «colunas». A profundidade de bits da quantização, ou «profundidade de bits», determina a precisão de cada representação de «coluna».

Quanto maior a taxa de amostragem (mais barras), mais próximo o sinal digital fica da onda senoidal suave original.

A profundidade de bits afeta a precisão da medição do sinal num determinado momento. Quanto mais bits, menor o erro. 16 bits para áudio não é mau, 24 bits é ainda melhor.

O ADC codifica ou “digitaliza” cada “coluna”, representando-a como um número específico com um número de série.

Nas nossas estações de áudio digital, o som físico, primeiro convertido em um sinal analógico e depois em um sinal digital usando um ADC, torna-se um conjunto de abstrações matemáticas. É importante entender que o som é apenas matemática. Não há nenhum "som" real nos fios ou no software.

O nível de volume "zero" numa estação de áudio digital, além do qual começa a distorção, também é condicional. Para uma profundidade ADC de 24 bits, o "zero digital" é apenas 24 "células" binárias, cada uma contendo o valor "1".

Como a 25.ª célula e todas as seguintes estão em falta, um sinal que exceda o «zero» simplesmente não pode aumentar de volume. Em vez disso, é-lhe adicionada cada vez mais distorção.

Ao trabalhar com níveis de volume em estações de áudio digital, é importante evitar a distorção. Porque o sinal digital recolhido dos barramentos principais da nossa estação de áudio é enviado para um conversor digital-analógico (DAC), que o envia para monitores de áudio ou auscultadores. Aqui ouvimos distorção (clipping), o que indica danos na faixa de áudio. Às vezes, a distorção pode ser agradável, como ao adicionar uma leve distorção de fita (tape), que os engenheiros de som podem usar propositalmente.

Como lidar com os níveis de volume na sua DAW

As editoras mundiais, tanto no Ocidente como no Oriente, que têm engenheiros de som na sua equipa ou celebram contratos com eles, normalmente solicitam misturas e stems aos músicos sem masterização, com níveis de volume não superiores a -6 dB no pico. Precisam disso para ter uma «reserva de volume» para processamento posterior.

É importante entender que estamos a falar de picos, não do nível médio de pressão sonora de uma trilha sonora, que é medido em RMS ou LUFs (volume médio formal combinado com volume percebido).

A lógica e a experiência ditam que, ao gravar vozes, instrumentos ao vivo e sintetizadores através de uma placa de som, podemos controlar o nível de ganho na entrada e ver o nível -dB dentro da DAW.

Esforce-se para garantir que os picos do sinal gravado na entrada nunca excedam -6, -5 dB é aceitável, e não permita que a «entrada» atinja 0 dB.

Ao usar sintetizadores virtuais e instrumentos sampleados dentro da sua DAW, pode sentir-se um pouco mais livre. No entanto, é necessário que haja sempre um «headroom» no volume nas saídas dos instrumentos virtuais e plug-ins de processamento.

Ao iniciar um arranjo num projeto, é recomendável definir imediatamente os faders do console DAW para todas as faixas em -10, ou preferencialmente -12 dB. Isso criará uma reserva de volume.

É importante lembrar que a trilha sonora geralmente contém drama. Os eventos musicais se desenvolvem, levando a clímax. E quando muitos instrumentos entram no forte ao mesmo tempo, o nível total do sinal no barramento mestre necessariamente excederá o nível do sinal de qualquer faixa específica. Portanto, a gravadora para o processamento final (masterização) deve fornecer um arquivo no qual os picos não excedam -6 dB.

É melhor evitar exceder este nível no bus master durante o arranjo e a pré-mistura do que perder tempo a baixar o nível de cada faixa mais tarde. Também deve estar ciente da possibilidade de automação de volume, o que pode levar a problemas adicionais. É aconselhável obter na mistura preliminar a mesma imagem que foi originalmente pretendida.

Os receios de que uma mistura soe «baixa» são muitas vezes infundados. O som numa DAW nunca é realmente «baixo» – é apenas uma abstração matemática. Um engenheiro de som que receba um stems ou uma mistura seca com picos de -8 ou mesmo -10 dB não ficará desapontado. Ele próprio fará todos os ajustes necessários.

Ao trabalhar com níveis de volume na sua DAW, existem algumas regras a seguir que o ajudarão a evitar a maioria dos problemas.

Autor

Antony Tornver

Publicado

April 27, 0024