Qu'est-ce que le Gain Staging ?

Auteur

Antony Tornver

Publié

April 27, 0024

Le monde de l'audio numérique peut sembler déroutant. Par exemple, en physique acoustique, le volume sonore est mesuré en décibels, et les valeurs sont toujours positives, mais dans les stations de travail numériques (DAW), les décibels deviennent soudainement négatifs. Quelle est donc cette étrange magie ?

Autre mystère : sur l'écran de la DAW, on peut parfois voir des niveaux de signal supérieurs à zéro, et parfois même des décibels « positifs » apparaissent. Qu'est-ce que tout cela signifie ? Aidez-moi à comprendre ! Les termes « volume », « gain », « niveau » sont constamment utilisés autour de nous et sur YouTube, mais quelle est la différence entre eux ?

Essayons de comprendre cela sans formules compliquées. Après tout, nous sommes pour la plupart des musiciens, pas des ingénieurs. Et en même temps, nous apprendrons à organiser correctement ce qu'on appelle la « marge de niveau » dans nos projets musicaux créés à l'aide d'une DAW.

Il n'y a essentiellement pas de volume dans l'enregistrement audio numérique. Que sont les décibels « naturels » ?

Le « volume sonore » est plus qu'un simple mot qui tente de décrire l'intensité de la pression acoustique appliquée aux oreilles. Pour chaque personne, les sons faibles et forts sont perçus de manière subjective. Ce qui est simplement « fort » pour une personne peut être « terriblement fort » pour une autre.

La création musicale nécessite toujours de prendre en compte des critères subjectifs, ce qui peut parfois nuire à la compréhension entre les participants au processus créatif. Il est donc important d'avoir une compréhension plus objective du volume lorsque l'on travaille sur des projets musicaux.

Dans la nature, il n'existe pas d'analogie directe avec le volume, comme dans le monde numérique. Le son se propage par ondes élastiques dans un milieu gazeux, liquide ou solide. La source du son est un corps physique qui subit des vibrations mécaniques, comme une corde ou les cordes vocales humaines.

Essayons d'imaginer cela visuellement, même si ce n'est pas très scientifique : après avoir émis un son, la corde vibre latéralement (dans un espace tridimensionnel) avec une certaine fréquence et amplitude, créant des ondes élastiques autour d'elle.

Ces ondes provoquent des zones de haute et basse pression atmosphérique qui se propagent dans l'environnement gazeux. Les physiciens décrivent ces vibrations comme la « pression acoustique ».

Pour mesurer l'intensité de la pression acoustique, les scientifiques ont mis au point une formule qui tient compte de la pression elle-même, de l'impédance acoustique du milieu et de la moyenne temporelle. Cela permet d'obtenir la valeur efficace de l'intensité sonore à un certain moment et à un certain endroit dans l'espace.

En musique, les vibrations sonores sont principalement périodiques, similaires aux vibrations d'une corde. Nous évaluons parfois leur intensité à l'aide du concept d'« amplitude de pression acoustique », mais en réalité, cela n'a pas beaucoup d'importance.

Ce qui importe vraiment, c'est que les décibels positifs (notés par un « + ») en physique font référence à l'intensité de la pression acoustique, mais uniquement par rapport à un point spécifique sur une échelle. Les décibels sont des unités relatives, logarithmiques ou sous-multiples, et n'ont de sens que s'il existe un « point de départ ».

En physique, ce point de départ est un niveau de pression de 20 micropascals (µPa) – c'est le seuil moyen de l'audition humaine lorsqu'elle ne perçoit pas encore les sons et ressent le silence. Bien que le chat ne serait probablement pas d'accord avec cela.

Le degré de volume perçu par une personne est étudié séparément, à l'aide de ses propres unités de mesure, telles que les fonds, sa composition fréquentielle et d'autres facteurs. Mais lorsque l'on travaille avec un DAW, ces détails ne sont pas si importants. L'essentiel pour nous est de ne pas se confondre avec les décibels.

0 décibel SPL (niveau de pression acoustique) signifie le silence pour une personne. Voici quelques valeurs typiques à titre de comparaison :

15 dB – « À peine audible » – c'est comme le bruissement des feuilles ;
35 dB – « Clairement audible » – par exemple, une conversation étouffée, un environnement calme dans une bibliothèque ou le bruit dans un ascenseur ;
50 dB – « Clairement audible » – cela correspond à une conversation à volume moyen, une rue calme ou le fonctionnement d'une machine à laver ;
70 dB – « Bruyant » – par exemple, des conversations bruyantes à une distance de 1 m, le bruit d'une machine à écrire, une rue bruyante ou un aspirateur en marche à une distance de 3 m ;
80 dB – « Très bruyant » – cela correspond à un réveil bruyant à une distance de 1 m, un cri, le bruit d'une moto avec un silencieux ou le bruit du moteur d'un camion en marche. Écouter de tels sons pendant une longue période peut entraîner une perte auditive ;
95 dB – « Très bruyant » – par exemple, le bruit d'une rame de métro à une distance de 7 m ou d'un piano joué fort à une distance de 1 m ;
130 dB – « Douleur » : cela correspond au bruit d'une sirène, au bruit de rivetage d'une chaudière, à un cri très fort ou au bruit d'une moto sans silencieux ;
160 dB – « Choc » : niveau auquel le tympan est susceptible de se rompre, comme un coup de fusil près de l'oreille, une compétition de sonorisation automobile, ou l'onde de choc d'un avion supersonique ou d'une explosion de 0,002 mégapascal.

Enregistrement sonore. Volume et gain

Lorsque nous enregistrons un son, nous devons convertir les vibrations sonores périodiques dans l'air en vibrations électriques. Depuis l'invention du phonautographe en 1857, les scientifiques et les ingénieurs ont expérimenté diverses méthodes d'enregistrement du son.

Il s'avère que la méthode la plus efficace et la moins coûteuse consiste à utiliser des appareils électriques tels que des microphones, des capteurs magnétiques et piézoélectriques (pour les cordes et parfois les instruments à percussion tels que les pianos).

Ces appareils électroacoustiques interceptent les fluctuations de la pression acoustique dans l'air (les capteurs magnétiques enregistrent les vibrations des cordes et les capteurs piézoélectriques enregistrent les vibrations du corps) et les convertissent en un signal électrique analogique.

Au moment de cette transformation, le son « disparaît » pour nous. Après cela, nous ne traitons plus que des oscillations électriques « silencieuses » pendant notre travail.

Ce sont ces vibrations qui sont transmises à l'intérieur des équipements musicaux : amplificateurs, effets analogiques, magnétophones, etc. Pour que ces vibrations, qu'elles soient amplifiées, traitées ou simplement enregistrées sur bande magnétique, redeviennent du son, elles doivent être reconverties en son à l'aide d'un appareil spécial, les vibrations de l'air. Cet appareil s'appelle un haut-parleur.

Un signal analogique a pour principale propriété d'être continu dans le temps et, à chaque milliseconde (ou au moins à chaque millionième de seconde), il présente un certain paramètre. Dans le cas d'une représentation électronique analogique du son, il peut s'agir de l'amplitude (l'écart maximal par rapport à la moyenne).

Le signal analogique reçu du microphone nous montre l'historique des changements fréquents de pression acoustique sur une période donnée. Nous chantons, par exemple, une chanson dans laquelle nous avons prévu 2 minutes de chant dans les couplets et les refrains, et lors de l'enregistrement, nous obtenons en quelque sorte une chronique des changements de pression acoustique sur la membrane du microphone.

Les signaux analogiques électriques obtenus par conversion des vibrations sonores sont plus facilement représentés sous la forme de graphiques sinusoïdaux. Les sons musicaux et non musicaux sont, en fait, une somme complexe de sinusoïdes.

Mais cela peut aussi être simple : lorsque le générateur de sons analogiques nous donne une seule onde sinusoïdale avec une fréquence de, disons, 440 Hertz (note « A »), nous entendons un « bip » clair mais ennuyeux provenant du haut-parleur.

Et enfin, nous arrivons au gain. Le mot gain signifie gain. Nous réglons son niveau à l'aide de régulateurs sur les amplificateurs et les cartes son. Cela diffère des boutons de contrôle du « volume » ou du « niveau de pression acoustique » (niveau) en ce sens que nous pouvons amplifier le signal au-delà de la limite à partir de laquelle sa distorsion commence.

Examinons cela de plus près : notre sinusoïde (rappelons qu'elle symbolise et visualise pour nous un signal analogique à l'intérieur d'un appareil électrique) est constituée de « crêtes » et de « creux » symétriques qui se répètent périodiquement.

Nous pouvons augmenter la hauteur des « collines » et la profondeur des « vallées » (c'est-à-dire l'amplitude) ou, en d'autres termes, « renforcer le signal », « ajouter du gain », mais pas indéfiniment.

Nous ne parlerons pas ici de la conception des circuits des appareils, mais nous partirons simplement du principe que chacun d'entre eux a une limite physique à laquelle l'appareil peut augmenter l'amplitude du signal de manière proportionnelle, sans le « casser ».

Lorsque le gain atteint un point critique et dépasse les valeurs admissibles, le circuit physique de l'appareil commence à couper les « montagnes » par le haut et à rogner les « vallées » par le bas.

Dans le jargon technique, on appelle cela « écrêtage analogique ». Dans ce cas, en plus du signal sonore utile, des sifflements, des cliquetis et des craquements peuvent être entendus dans les haut-parleurs. En ingénierie audio, on parle également de « distorsion non linéaire ».

Nous pouvons maintenant comprendre que le niveau de volume dans la technologie musicale correspond à une modification de l'amplitude du signal AVANT la limite au-delà de laquelle il commence à se déformer. Et le « gain » peut facilement dépasser ces limites.

Le paradoxe est que lorsque le gain est augmenté de manière significative au-delà de la valeur admissible, la pression acoustique créée par les haut-parleurs (vers lesquels le signal traité est envoyé) n'augmente pas toujours. Ce qui précède est vrai pour le traitement audio numérique.

Supposons que, dans un DAW qui envoie le signal traité à la carte son, lorsque l'on écrête et augmente le gain sur la console virtuelle jusqu'à atteindre des valeurs folles, aucune augmentation réelle du niveau de volume ne se produit. Dans les haut-parleurs des moniteurs audio, nous n'entendons que l'ajout de plus en plus de distorsion. Cela est dû à la représentation particulière du son en « numérique », dont nous parlerons brièvement ci-dessous.

Pour l'instant, revenons aux « décibels négatifs ». Rappelez-vous que les dB sont des unités relatives qui n'ont de sens que si elles sont rapportées à un point de référence.

Dans l'enregistrement sonore, ce point est considéré comme le niveau du signal au-delà duquel la distorsion commence. Il est désigné par « zéro ». Tout ce qui se trouve dans la zone « zéro » est un signal sans écrêtage, dont le niveau est indiqué en dB avec un « moins ». Tout ce qui se trouve au-dessus est un signal déformé avec une coupure en amplitude (« pics et creux »). Et ils l'indiquent en dB avec un « plus ».

Il est d'usage d'afficher le niveau de volume en décibels « négatifs » sur les appareils analogiques et numériques. C'est pratique et visuel.

Que se passe-t-il avec le volume en numérique ?

Dans nos cartes son, le signal analogique est d'abord légèrement amplifié par un préamplificateur, puis transmis à un convertisseur analogique-numérique (ADC). Pour simplifier, voici ce que fait un ADC :

1. Il coupe une bande de fréquences, supprimant les éléments inutiles, par exemple les sons inférieurs à 20 Hertz, que l'oreille humaine ne peut pas entendre ;
2. L'ADC divise un signal continu en un certain nombre de valeurs individuelles (échantillonnage et quantification), c'est-à-dire qu'il transforme notre onde sinusoïdale lisse en une séquence de « colonnes ».

La fréquence d'échantillonnage détermine le nombre de ces « colonnes ». La profondeur de quantification, ou « profondeur de bits », détermine la précision de chaque représentation « colonne ».

Plus le taux d'échantillonnage est élevé (plus il y a de barres), plus le signal numérique est proche de l'onde sinusoïdale lisse d'origine.

La profondeur de bits affecte la précision de la mesure du signal à un moment donné. Plus il y a de bits, plus l'erreur est faible. 16 bits pour l'audio, ce n'est pas mal, 24 bits, c'est encore mieux.

Le convertisseur analogique-numérique (ADC) encode ou « numérise » chaque « colonne », la représentant sous la forme d'un nombre spécifique avec un numéro de série.

Dans nos stations audio numériques, le son physique, d'abord converti en signal analogique puis en signal numérique à l'aide d'un ADC, devient un ensemble d'abstractions mathématiques. Il est important de comprendre que le son n'est que mathématiques. Il n'y a pas de « son » réel dans les câbles ou les logiciels.

Le niveau de volume « zéro » dans une station audio numérique, au-delà duquel la distorsion commence, est également conditionnel. Pour une profondeur ADC de 24 bits, le « zéro numérique » n'est que 24 « cellules » binaires, chacune contenant la valeur « 1 ».

Comme la 25e cellule et toutes les suivantes sont manquantes, un signal dépassant « zéro » ne peut tout simplement pas augmenter en volume. Au contraire, de plus en plus de distorsion s'y ajoute.

Lorsque vous travaillez avec des niveaux de volume dans des stations audio numériques, il est important d'éviter la distorsion. En effet, le signal numérique collecté à partir des bus maîtres de notre station audio est envoyé à un convertisseur numérique-analogique (DAC), qui le transmet à des moniteurs audio ou à des écouteurs. Nous entendons alors une distorsion (écrêtage), qui indique une détérioration de la piste audio. Parfois, la distorsion peut être agréable, comme lorsqu'on ajoute une légère distorsion de bande (tape), que les ingénieurs du son peuvent utiliser à dessein.

Comment gérer les niveaux de volume dans votre DAW

Les labels du monde entier, tant en Occident qu'en Orient, qui emploient des ingénieurs du son ou passent des contrats avec eux, demandent généralement aux musiciens de leur fournir des mixages et des stems sans mastering, avec des niveaux de volume ne dépassant pas -6 dB au maximum. Ils ont besoin de cela afin de disposer d'une « marge de volume » pour un traitement ultérieur.

Il est important de comprendre que nous parlons ici de pics, et non du niveau de pression acoustique moyen d'une bande sonore, qui est mesuré en RMS ou en LUF (volume moyen formel combiné au volume perçu).

La logique et l'expérience nous dictent que lorsque nous enregistrons des voix, des instruments live et des synthés via une carte son, nous pouvons contrôler le niveau de gain à l'entrée et voir le niveau en dB dans la DAW.

Veillez à ce que les pics du signal enregistré à l'entrée ne dépassent jamais -6 dB, -5 dB étant acceptable, et ne laissez pas le « revenu » atteindre 0 dB.

En utilisant des synthétiseurs virtuels et des instruments échantillonnés dans votre DAW, vous pouvez vous sentir un peu plus libre. Cependant, il est nécessaire qu'il y ait toujours une « marge » de volume aux sorties des instruments virtuels et des plug-ins de traitement.

Lorsque vous commencez un arrangement dans un projet, il est recommandé de régler immédiatement les faders de la console DAW pour toutes les pistes à -10, ou de préférence -12 dB. Cela créera une réserve de volume.

Il est important de se rappeler que la bande sonore contient généralement du drame. Les événements musicaux se développent, menant à des climax. Et lorsque de nombreux instruments entrent en forte en même temps, le niveau de signal total sur le bus principal dépassera nécessairement le niveau de signal de n'importe quelle piste particulière. Par conséquent, le label pour le traitement final (mastering) doit fournir un fichier dans lequel les pics ne dépassent pas -6 dB.

Il vaut mieux éviter de dépasser ce niveau sur le bus principal pendant l'arrangement et le pré-mixage que de perdre du temps à baisser le niveau de chaque piste par la suite. Vous devez également être conscient de la possibilité d'une automatisation du volume, qui peut entraîner des problèmes supplémentaires. Il est conseillé d'obtenir dans le mixage préliminaire la même image que celle initialement prévue.

Les craintes qu'un mixage soit « silencieux » sont souvent infondées. Le son dans un DAW n'est jamais vraiment « silencieux » – il s'agit simplement d'une abstraction mathématique. Un ingénieur de studio qui reçoit un mixage brut ou un mixage sec avec des pics de -8 ou même -10 dB ne sera pas déçu. Il effectuera lui-même tous les ajustements nécessaires.

Lorsque vous travaillez avec les niveaux de volume dans votre DAW, il existe quelques règles à suivre qui vous aideront à éviter la plupart des problèmes.

Auteur

Antony Tornver

Publié

April 27, 0024