Qué es Gain Staging

Autor

Antony Tornver

Publicado

April 27, 0024

El mundo del audio digital puede parecer confuso. Por ejemplo, en la física del sonido, el volumen se mide en decibelios y los valores son siempre positivos, pero en las estaciones de trabajo digitales (DAW), los decibelios se vuelven negativos de repente. ¿Y qué es esta extraña magia?

Otro misterio: en la pantalla del DAW a veces se pueden ver niveles de señal por encima de cero, y a veces incluso aparecen decibelios «positivos». ¿Qué significa todo esto? ¡Ayúdame a entenderlo! Los términos «volumen», «ganancia» y «nivel» se escuchan constantemente a nuestro alrededor y en YouTube, pero ¿cuál es la diferencia entre ellos?

Intentemos entenderlo sin fórmulas complicadas. Al fin y al cabo, la mayoría somos músicos, no ingenieros. Y al mismo tiempo, aprenderemos a organizar correctamente el llamado «margen de nivel» en nuestros proyectos musicales creados con un DAW.

En esencia, no hay volumen en la grabación de audio digital. ¿Qué son los decibelios «naturales»?

«Volumen» es más que una simple palabra que intenta describir la intensidad de la presión sonora que llega a los oídos. Cada persona percibe los sonidos bajos y altos de forma subjetiva. Lo que para una persona es simplemente «alto», para otra puede ser «terriblemente alto».

Hacer música siempre requiere tener en cuenta criterios subjetivos, lo que a veces interfiere en el entendimiento entre los participantes en el proceso creativo. Por lo tanto, es importante tener una comprensión más objetiva del volumen cuando se trabaja en proyectos musicales.

En la naturaleza no existe un análogo directo del volumen, como en el mundo digital. El sonido viaja a través de ondas elásticas en un medio gaseoso, líquido o sólido. La fuente del sonido es un cuerpo físico que experimenta vibraciones mecánicas, como una cuerda o las cuerdas vocales humanas.

Intentemos imaginarlo visualmente, aunque no de forma muy científica: después de que la cuerda suena, vibra lateralmente (en un espacio tridimensional) con una determinada frecuencia y amplitud, creando ondas elásticas a su alrededor.

Estas ondas provocan zonas de alta y baja presión atmosférica que se propagan a través del medio gaseoso. Los físicos describen estas vibraciones como «presión sonora».

Para medir la intensidad de la presión sonora, los científicos han desarrollado una fórmula que tiene en cuenta la presión en sí, la impedancia acústica del medio y el promedio temporal. Esto nos permite obtener el valor cuadrático medio de la intensidad del sonido en un determinado punto en el tiempo y el espacio.

En la música, las vibraciones sonoras son principalmente periódicas, similares a las vibraciones de una cuerda. A veces evaluamos su intensidad utilizando el concepto de «amplitud de la presión sonora», pero en realidad esto no es tan importante.

Lo realmente importante es que los decibelios positivos (denotados por un «+») en física se refieren a la intensidad de la presión sonora, pero solo en relación con un punto específico en una escala. Los decibelios son unidades relativas, logarítmicas o submúltiples y solo tienen sentido si hay un «punto de partida».

En física, este punto de partida es un nivel de presión de 20 micropascales (µPa), que es el umbral medio del oído humano cuando aún no percibe los sonidos y siente silencio. Aunque es probable que el gato no esté de acuerdo con esto.

El grado de volumen percibido por una persona se estudia por separado, utilizando sus propias unidades de medida, como los fondos, su composición de frecuencia y otros factores. Pero cuando se trabaja con un DAW, estos detalles no son tan importantes. Lo principal para nosotros es no confundirnos con los decibelios.

0 decibelios SPL (nivel de presión sonora) significa silencio para una persona. A continuación se muestran algunos valores típicos para comparar:

15 dB: «Apenas audible», es como el susurro de las hojas;
35 dB: «claramente audible», por ejemplo, una conversación amortiguada, un entorno tranquilo en una biblioteca o el ruido en un ascensor;
50 dB: «claramente audible», como una conversación a volumen medio, una calle tranquila o el funcionamiento de una lavadora;
70 dB: «ruidoso»: por ejemplo, conversaciones en voz alta a una distancia de 1 m, el ruido de una máquina de escribir, una calle ruidosa o una aspiradora en funcionamiento a una distancia de 3 m;
80 dB: «Muy ruidoso»: es como un despertador ruidoso a una distancia de 1 m, un grito, el sonido de una motocicleta con silenciador o el sonido del motor de un camión en marcha. Escuchar estos sonidos durante mucho tiempo puede provocar pérdida auditiva.
95 dB: «Muy ruidoso»: por ejemplo, el ruido de un vagón de metro a una distancia de 7 m o un piano sonando fuerte a una distancia de 1 m.
130 dB: «Dolor»: es como una sirena, el ruido de calderas remachadas, el grito más fuerte o una motocicleta sin silenciador.
160 dB: «Conmoción», es el nivel en el que es probable que se rompa el tímpano, como el disparo de una escopeta cerca del oído, una competición de sistemas de sonido para automóviles o la onda de choque de un avión supersónico o una explosión de 0,002 megapascales.

Grabación de sonido. Volumen y ganancia

Cuando grabamos sonido, tenemos que convertir las vibraciones sonoras periódicas del aire en vibraciones eléctricas. Desde la invención del fonautógrafo en 1857, los científicos e ingenieros han experimentado con diversos métodos de grabación de sonido.

Resulta que la forma más eficaz y barata es utilizar dispositivos eléctricos como micrófonos, captadores magnéticos y piezoeléctricos (para cuerdas y, a veces, instrumentos de percusión como pianos).

Estos dispositivos electroacústicos interceptan las fluctuaciones de la presión sonora del aire (las pastillas magnéticas registran las vibraciones de las cuerdas y los sensores piezoeléctricos registran las vibraciones del cuerpo) y las convierten en una señal eléctrica analógica.

En el momento de esta transformación, el sonido «desaparece» para nosotros. A partir de ese momento, solo nos ocupamos de oscilaciones eléctricas «silenciosas» durante nuestro trabajo.

Son estas vibraciones las que se transmiten dentro de los equipos musicales: amplificadores, efectos analógicos, grabadoras, etc. Para que estas vibraciones, ya sean amplificadas, procesadas o simplemente grabadas en cinta magnética, se conviertan de nuevo en sonido, deben reconvertirse en sonido mediante un dispositivo especial de vibraciones de aire. Este dispositivo se denomina altavoz.

Una señal analógica tiene una propiedad fundamental: es continua en el tiempo y, en cada milisegundo (o, al menos, en cada millonésima de segundo), tiene un parámetro determinado. Digamos que, en el caso de una representación electrónica analógica del sonido, este parámetro podría ser la amplitud (la mayor dispersión de valores con respecto a la media).

La señal analógica recibida del micrófono nos muestra un historial de cambios frecuentes en la presión sonora durante un periodo de tiempo. Cantamos, por ejemplo, una canción en la que hemos planeado 2 minutos de voz en las estrofas y los estribillos, y al grabar obtenemos, por así decirlo, una crónica de los cambios en la presión sonora en la membrana del micrófono.

Las señales eléctricas analógicas obtenidas mediante la conversión de las vibraciones sonoras se representan más fácilmente en forma de gráficos sinusoidales. Los sonidos musicales y no musicales son, de hecho, una suma compleja de sinusoides.

Pero también pueden ser simples: cuando el generador de tonos analógico nos da una sola onda sinusoidal con una frecuencia de, por ejemplo, 440 hercios (nota «A»), oímos un «pitido» claro pero aburrido por el altavoz.

Y, por último, llegamos a la ganancia. La palabra ganancia significa ganancia. Ajustamos su nivel con reguladores en amplificadores y tarjetas de sonido. Esto difiere de los controles de «volumen» o «nivel de presión sonora» (Nivel) en que podemos amplificar la señal más allá del límite a partir del cual comienza su distorsión.

Ahora veámoslo más de cerca: nuestra sinusoide (recuerde que simboliza y visualiza para nosotros una señal analógica dentro de un aparato eléctrico) es una sucesión de «cimas» y «valles» simétricos que se repiten periódicamente.

Podemos aumentar la altura de las «colinas» y la profundidad de los «valles» (es decir, la amplitud) o, en otras palabras, «reforzar la señal», «añadir ganancia», pero no de forma indefinida.

No hablaremos aquí del diseño de los circuitos de los dispositivos, simplemente daremos por sentado que cada uno de ellos tiene un límite físico hasta el cual el dispositivo puede aumentar la amplitud de la señal de forma proporcional, sin «romperla».

Cuando la ganancia alcanza un punto crítico y supera los valores permitidos, el circuito físico del dispositivo comienza a cortar las «montañas» desde arriba y a recortar los «valles» desde abajo.

En la jerga de la ingeniería, esto se denomina «recorte analógico». En este caso, además de la señal de sonido útil, se pueden escuchar silbidos, traqueteos y crujidos en los altavoces. En ingeniería de audio, esto también se denomina «distorsión no lineal».

Ahora podemos entender que el nivel de volumen en la tecnología musical es un cambio en la amplitud de la señal ANTES del límite más allá del cual comienza a distorsionarse. Y la «ganancia» puede superar fácilmente estos límites.

La paradoja es que cuando la ganancia se aumenta en cantidades significativas más allá del valor permitido, la presión sonora creada por los altavoces (a los que se envía la señal procesada) no siempre aumenta. Lo anterior es válido para el procesamiento de audio digital.

Digamos que, dentro de un DAW que envía la señal procesada a la tarjeta de sonido, cuando se recorta y se sube la ganancia en la consola virtual hasta valores disparatados, no se produce un aumento real del nivel de volumen. En los altavoces de los monitores de audio solo oímos la adición de más y más distorsión. Esto se debe a la representación especial del sonido en «digital», sobre la que diremos unas palabras más adelante.

Por ahora, volvamos a los «decibelios negativos». Recuerda que los dB son unidades relativas que solo tienen sentido si se relacionan con algún punto de referencia.

En la grabación de sonido, ese punto se considera el nivel de señal más allá del cual comienza la distorsión. Se designa como «cero». Todo lo que se encuentra en la zona «a cero» es una señal sin recorte, cuyo nivel se indica en dB con un «menos». Todo lo que está por encima es una señal distorsionada con un corte en la amplitud («picos y valles»). Y se denota en dB con un «más».

Es habitual mostrar el nivel de volumen en decibelios «negativos» tanto en dispositivos analógicos como digitales. Es cómodo y visual.

¿Qué ocurre con el volumen en el ámbito digital?

En nuestras tarjetas de sonido, la señal analógica primero se amplifica ligeramente mediante un preamplificador y luego pasa por un convertidor analógico-digital (ADC). Para simplificar, esto es lo que hace un ADC:

1. Corta una banda de frecuencia, eliminando elementos innecesarios, por ejemplo, el sonido por debajo de 20 hercios, que una persona aún no puede oír.
2. El ADC divide una señal continua en un número determinado de valores individuales (muestreo y cuantificación), es decir, convierte nuestra onda sinusoidal suave en una secuencia de «columnas».

La frecuencia de muestreo determina el número de dichas «columnas». La profundidad de bits de cuantificación, o «profundidad de bits», determina la precisión de la representación de cada «columna».

Cuanto mayor sea la frecuencia de muestreo (más barras), más se acercará la señal digital a la onda sinusoidal suave original.

La profundidad de bits afecta a la precisión de la medición de la señal en un momento determinado. Cuantos más bits, menor es el error. 16 bits para el audio no está mal, 24 bits es aún mejor.

El ADC codifica o «digitaliza» cada «columna», representándola como un número específico con un número de serie.

En nuestras estaciones de audio digital, el sonido físico, convertido primero en una señal analógica y luego en una señal digital mediante un ADC, se convierte en un conjunto de abstracciones matemáticas. Es importante comprender que el sonido es solo matemáticas. No hay ningún «sonido» real en los cables o el software.

El nivel de volumen «cero» en una estación de audio digital, más allá del cual comienza la distorsión, también es condicional. Para una profundidad de ADC de 24 bits, el «cero digital» es solo 24 «celdas» binarias, cada una de las cuales contiene el valor «1».

Dado que faltan la celda 25 y todas las siguientes, una señal que supere el «cero» simplemente no puede aumentar de volumen. En su lugar, se le añade cada vez más distorsión.

Cuando se trabaja con niveles de volumen en estaciones de audio digital, es importante evitar la distorsión. Porque la señal digital recogida de los buses maestros de nuestra estación de audio se envía a un convertidor digital-analógico (DAC), que la envía a monitores de audio o auriculares. Aquí escuchamos distorsión (clipping), lo que indica daños en la pista de audio. A veces, la distorsión puede ser agradable, como cuando se añade una ligera distorsión de cinta (tape), que los ingenieros de sonido pueden utilizar a propósito.

Cómo manejar los niveles de volumen en tu DAW

Los sellos discográficos de todo el mundo, tanto en Occidente como en Oriente, que cuentan con ingenieros de sonido en plantilla o contratan sus servicios, suelen solicitar a los músicos mezclas y stems sin masterizar con niveles de volumen que no superen los -6 dB en los picos. Esto es necesario para disponer de un «margen de volumen» para su posterior procesamiento.

Es importante entender que estamos hablando de picos, no del nivel medio de presión sonora de una banda sonora, que se mide en RMS o LUF (volumen medio formal combinado con volumen percibido).

La lógica y la experiencia dictan que, al grabar voces, instrumentos en directo y sintetizadores a través de una tarjeta de sonido, podemos controlar el nivel de ganancia en la entrada y ver el nivel en dB dentro del DAW.

Esfuérzate por garantizar que los picos de la señal grabada en la entrada nunca superen los -6, -5 dB es aceptable, y no permitas que la «entrada» alcance los 0 dB.

Al utilizar sintetizadores virtuales e instrumentos sampleados dentro de tu DAW, puedes sentirte un poco más libre. Sin embargo, es necesario que siempre haya un «margen» de volumen en las salidas de los instrumentos virtuales y los plug-ins de procesamiento.

Al comenzar un arreglo en un proyecto, se recomienda ajustar inmediatamente los faders de la consola del DAW para todas las pistas a -10, o preferiblemente a -12 dB. Esto creará una reserva de volumen.

Es importante recordar que la banda sonora suele contener dramatismo. Los eventos musicales se desarrollan y conducen a clímax. Y cuando muchos instrumentos entran en el forte al mismo tiempo, el nivel de señal total en el bus maestro superará necesariamente el nivel de señal de cualquier pista en particular. Por lo tanto, la etiqueta para el procesamiento final (masterización) debe proporcionar un archivo en el que los picos no superen los -6 dB.

Es mejor evitar superar este nivel en el bus maestro durante la arreglos y la premezcla que perder tiempo bajando el nivel de cada pista más tarde. También hay que tener en cuenta la posibilidad de la automatización del volumen, que puede acarrear problemas adicionales. Es aconsejable obtener en la mezcla preliminar la misma imagen que se pretendía originalmente.

Los temores de que una mezcla suene «baja» suelen ser infundados. El sonido en un DAW nunca es realmente «bajo», es solo una abstracción matemática. Un ingeniero de sonido al que se le entregue una mezcla seca o stems con picos de -8 o incluso -10 dB no se sentirá decepcionado. Él mismo realizará todos los ajustes necesarios.

Cuando trabajes con los niveles de volumen en tu DAW, hay algunas reglas que debes seguir y que te ayudarán a evitar la mayoría de los problemas.

Autor

Antony Tornver

Publicado

April 27, 0024