Qué es Vocoder

Autor

Antony Tornver

Publicado

April 27, 2024

El vocoder se inventó en la década de 1920 con fines comunicativos. Sin embargo, su verdadero propósito se descubrió en la música electrónica, donde se convirtió en una herramienta clave para crear voces robóticas. Casi cien años después de su aparición, el vocoder se utiliza activamente en la industria musical, pero no todo el mundo sabe cómo funciona este instrumento único y cómo utilizarlo. En este texto podrás aprender cómo la Segunda Guerra Mundial popularizó los sintetizadores de voz, cómo funciona el vocoder y cómo utilizarlo correctamente.

El desarrollo del vocoder comenzó en 1928 gracias al trabajo de un ingeniero llamado Homer Dudley en Bell Labs. A finales de la década de 1930 se logró el resultado final y, en noviembre de 1937, Dudley recibió la primera patente por su invento y, en 1939, la segunda. La idea principal de Dudley era recrear el aparato fonador humano utilizando la electrónica. Mediante componentes y efectos electrónicos, el ingeniero trató de imitar lo más fielmente posible el funcionamiento de los órganos fonadores humanos, reproduciendo los sonidos creados por el paso del aire a través de diversas partes del cuerpo humano, como los pulmones y otros órganos.

En 1939, Bell Labs presentó al público un dispositivo de síntesis del habla llamado VODER (Voice Operating Demonstrator) a través de una serie de demostraciones en Nueva York y San Francisco. El dispositivo contaba con un par de osciladores conmutables y un generador de ruido como fuente de audio. Una ruta vocal dedicada, compuesta por filtros de diez bandas, estaba conectada a un teclado sensible a la velocidad que controlaba la intensidad del filtrado. El tono del sonido se cambiaba mediante un pedal. Otras teclas se encargaban de generar las letras «P», «D», «J», así como las combinaciones de sonidos «JAW» y «CH».

VODER era un dispositivo complejo que requería una formación especializada y varios meses de entrenamiento para poder utilizarlo. Para las demostraciones diarias, Bell Labs formó especialmente a 20 personas, que se turnaban para presentar el nuevo producto a todos los interesados. Durante la demostración, VODER pronunciaba la frase «¡Buenas tardes, oyentes de la radio!».

En 1949 se desarrolló el convertidor de voz KO-6, que codificaba el habla y la información a una velocidad de 1200 bits por segundo. En 1953 apareció otro vocoder, el KY-9 THESEUS, que no solo aumentó la velocidad de procesamiento a 1650 bits por segundo, sino que también utilizaba componentes diferentes. Gracias a los materiales modificados, fue posible reducir el peso del vocoder de 55 toneladas en el caso del SIGSALY a 256 kilogramos en el caso del KY-9. Finalmente, en 1961, con el lanzamiento del convertidor HY-2, fue posible reducir el peso del vocoder a 45 kilogramos y también aumentar la velocidad de codificación a 2400 bits por segundo. El HY-2 fue el último vocoder industrial utilizado en sistemas de comunicaciones seguras, mientras que el instrumento permaneció en el sector de consumo.

En 1948, el científico alemán Werner Mayer-Eppler, que tenía un interés especial en la síntesis de voz, publicó una tesis sobre la síntesis del habla y la música electrónica desde el punto de vista de la síntesis de sonido. Sus conocimientos desempeñaron posteriormente un papel importante en la creación del Estudio de Música Electrónica de la Radio de Alemania Occidental (WDR) en Colonia en 1951.

El primer uso de un vocoder para crear música tuvo lugar en 1959, también en Alemania. Entre 1956 y 1959, Siemens desarrolló el sintetizador Siemens, que podía convertir el sonido en habla. En 1968, Robert Moog, fundador de la empresa Moog, desarrolló uno de los primeros vocoders diseñados específicamente para su uso en la industria musical. Este vocoder fue encargado por la Universidad de Buffalo.

Desde entonces, la historia del vocoder ha evolucionado por sí sola y se ha generalizado su uso en todos los ámbitos del audio y el vídeo. El instrumento se dio a conocer al gran público gracias al grupo Kraftwerk, que montó de forma independiente un vocoder para sus experimentos y lo utilizó desde su fundación en 1970. El ejemplo más famoso y popular del uso de un vocoder fue el álbum de Kraftwerk «Trans-Europe Express», que examinamos en detalle en una reseña sobre instrumentos musicales inusuales de artistas electrónicos alemanes.

¿Cómo funciona un vocoder?

Es mejor utilizar dos señales que una sola. El vocoder necesita dos fuentes de sonido para funcionar:

Operador: señal de sonido inicial;
Modulador: una señal con diferentes características armónicas que determinan el sonido del operador.

El sonido pasa a través de un «banco de filtros» especial que analiza la señal del modulador, la divide en bandas de frecuencia y aplica un filtro a cada banda. Los filtros siempre se ajustan de manera que el punto de corte se encuentre exactamente en el centro de cada rango de la señal del modulador. Independientemente de la densidad de corte, la señal dentro de cada rango se filtra en el centro.

A continuación, la señal del operador se suministra al modulador, que pasa por todos los filtros. El vocoder ajusta el punto de corte de cada filtro en función de los armónicos y sobretonos de la señal del modulador.

Para comprender el principio de funcionamiento de un vocoder, podemos establecer una analogía con la voz humana. El sonido de la voz se forma mediante las señales de los operadores y moduladores. Cuando pronunciamos palabras, un flujo de aire pasa a través de las cuerdas vocales, creando la señal original del operador. Al mismo tiempo, otras partes del aparato vocal vibran, generando una señal moduladora. Estas características afectan directamente al sonido de la voz.

Un vocoder funciona de manera similar: modifica la señal original debido a las características de la señal adicional.

Cualquier señal de audio puede ser un operador o un modulador. Los productores suelen utilizar sonidos sintetizados como operadores y la voz como modulador. Un ejemplo del uso de un vocoder en la música es la canción «Trans-Europe Express» de Kraftwerk. El operador es la señal del sintetizador y el modulador es el habla normal.

Un uso más experimental del vocoder se puede ver en la canción «Nightcall» de Kavinsky. Este efecto se puede recrear utilizando iZotope VocalSynth, configurando el patch para generar acordes a partir de dos ondas sonoras y ruido blanco como operador, modulado por la voz.

Cómo utilizar un vocoder

Para que un vocoder suene tan impresionante como muchas grabaciones comerciales, el operador de señal debe ser rico en armónicos. Cuanto más rico y variado sea el operador, mayor será el impacto del modulador.

Lo mejor es empezar a experimentar con parches que utilicen o se basen en la forma de onda de diente de sierra. Las señales de onda rampa suelen ser más ricas que las ondas triangulares o sinusoidales. También es una buena práctica comprimir o saturar la señal del operador antes de introducirla en el vocoder. Esto resaltará el efecto de la señal que pasa por el banco de filtros.

La voz que actúa como modulador requiere una atención especial. Al escribir las palabras, debes ser muy claro y preciso, enfatizando cada sonido. Independientemente del tipo de voz que tengas, es importante que la articulación sea pronunciada. Es la precisión y la claridad lo que crea el efecto característico del vocoder que da una voz robótica. Fíjate en cómo en «Nightcall» de Kavinsky cada palabra se pronuncia de forma clara y lenta. Cuando se trabaja con un vocoder, es importante controlar la articulación para evitar distorsiones.

El tono de voz no es tan importante cuando se utiliza un vocoder. Céntrate en otras características de la voz: timbre, profundidad, claridad y definición. En lugar de experimentar con el rango, es mejor trabajar en la expresión y la entonación.

¿Qué parámetros controlan el funcionamiento del vocoder?

Tanto los vocodificadores de hardware como los de software (VST) suelen tener un conjunto de parámetros similar. En la mayoría de los casos, sus ajustes son similares: aunque los nombres de los controles y parámetros pueden variar según el fabricante, su esencia sigue siendo aproximadamente la misma.

Número de bandas

El control Bandas controla cómo se divide la señal de audio en diferentes rangos de frecuencia. La posición de este control determina en cuántas partes se dividirá la señal del modulador. A diferencia de los vocoders de software y los plug-ins, los dispositivos más antiguos tienen un límite en el número de rangos de frecuencia en los que se puede dividir la señal. Para crear un sonido robótico tradicional similar al estilo Kraftwerk, se recomienda establecer el parámetro Bandas en un rango de 8 a 12 valores.

Rango de frecuencias

Este parámetro determina el rango de frecuencias que se utilizará en el proceso de procesamiento de la señal del operador. Al utilizar el vocoder, solo se tendrán en cuenta las frecuencias dentro de este intervalo especificado, el resto se ignorará. Para mejorar la claridad del audio, se recomienda establecer el límite superior por encima de 5 kHz.

Formantes

Algunos modelos de vocoder tienen una función de ajuste de formantes, a menudo denominada «Shift». Con esta opción, el usuario puede cambiar la anchura o estrechez de las bandas para filtrar el audio. Al aumentar los formantes, la señal procesada se vuelve más brillante, mientras que al reducirlos, la señal procesada se vuelve más oscura y profunda.

Normalmente, el ajuste de formantes se utiliza para adaptar el vocoder a voces femeninas o masculinas, y el desplazamiento hace que la voz robótica sea más femenina o masculina. Algunos modelos de vocoder, en lugar de ajustar los formantes, tienen un parámetro de «género», que permite ajustar el género de la voz resultante.

Sordas

El habla humana en cualquier idioma siempre va acompañada de los llamados sonidos oclusivos. Un sonido explosivo se produce en el momento en que, para pronunciarlo, es necesario pasar una corriente de aire a través de los labios cerrados, por ejemplo, al pronunciar las letras «P» y «B». Los oclusivos no son sonidos vocales, por lo que a menudo se denominan sonidos sordos.

Los sonidos no vocales no tienen un tono específico y son ruidos en todo el rango de frecuencias que el vocoder ignora. Pero no hay que alegrarse por la exclusión de estos ruidos: imagina cómo suenan palabras tan familiares sin las letras «P» y «B» («habitual» – «rich», «problem» – «rolema»).

Para evitar que el vocoder omita los sonidos oclusivos y «trague» letras en las palabras, los fabricantes añaden un parámetro especial «Unvoiced» (Sordos) a la sección de ajustes. Este control está conectado a un generador de ruido, que corrige las deficiencias en el funcionamiento del vocoder: cuanto más se gira el parámetro, más fuerte es la corrección. El generador de ruido reproduce una señal con una forma de onda sonora similar a la señal del operador. Todas las oclusivas sin tono y transicionales permanecen en la señal, las letras de las palabras se conservan y los sonidos del habla son correctos después del vocoder.

Autor

Antony Tornver

Publicado

April 27, 2024

audio effects