O que é o Vocoder

Autor

Antony Tornver

Publicado

April 27, 2024

O vocoder foi inventado na década de 1920 para fins de comunicação. No entanto, o seu verdadeiro propósito foi descoberto na música eletrónica, onde se tornou uma ferramenta fundamental para a criação de vozes robóticas. Quase cem anos após o seu surgimento, o vocoder é usado ativamente na indústria musical, mas nem todos sabem como esse instrumento único funciona e como usá-lo. Neste texto, você aprenderá como a Segunda Guerra Mundial popularizou os sintetizadores de voz, como o vocoder funciona e como usá-lo corretamente.

O desenvolvimento do vocoder começou em 1928, através do trabalho de um engenheiro chamado Homer Dudley, na Bell Labs. No final da década de 1930, o resultado final foi alcançado e, em novembro de 1937, Dudley recebeu a primeira patente pela sua invenção e, em 1939, a segunda. A ideia principal de Dudley era recriar o aparelho vocal humano usando componentes eletrónicos. Usando componentes e efeitos eletrónicos, o engenheiro procurou imitar o mais fielmente possível o funcionamento dos órgãos vocais humanos, reproduzindo os sons criados pela passagem do ar por várias partes do corpo humano, como os pulmões e outros órgãos.

Em 1939, a Bell Labs apresentou ao público um dispositivo de síntese de fala chamado VODER (Voice Operating Demonstrator) através de uma série de demonstrações em Nova Iorque e São Francisco. O dispositivo apresentava um par de osciladores comutáveis e um gerador de ruído como fonte de áudio. Um caminho vocal dedicado, composto por filtros de dez bandas, estava ligado a um teclado sensível à velocidade que controlava a intensidade da filtragem. O tom do som era alterado usando um pedal. Teclas adicionais eram responsáveis por gerar as letras “P”, “D”, “J”, bem como as combinações de sons “JAW” e “CH”.

O VODER era um dispositivo complexo que exigia treinamento especializado e vários meses de prática para ser utilizado. Para as demonstrações diárias, a Bell Labs treinou especialmente 20 pessoas, que se revezavam para apresentar o novo produto a todos os interessados. Durante a demonstração, o VODER dizia a frase “Boa tarde, ouvintes de rádio!”.

Em 1949, foi desenvolvido o conversor de voz KO-6, que codificava a fala e as informações a uma taxa de 1200 bits por segundo. Em 1953, surgiu outro vocoder, o KY-9 THESEUS, que não só aumentou a velocidade de processamento para 1650 bits por segundo, mas também utilizava componentes diferentes. Graças aos materiais modificados, foi possível reduzir o peso do vocoder de 55 toneladas para o SIGSALY para 256 kg para o KY-9. Finalmente, em 1961, com o lançamento do conversor HY-2, foi possível reduzir o peso do vocoder para 45 kg e também aumentar a velocidade de codificação para 2400 bits por segundo. O HY-2 foi o último vocoder industrial usado em sistemas de comunicação seguros, enquanto o instrumento permaneceu no setor de consumo.

Em 1948, o cientista alemão Werner Mayer-Eppler, que tinha um interesse especial em síntese de voz, publicou uma dissertação sobre síntese de fala e música eletrónica do ponto de vista da síntese de som. O seu conhecimento mais tarde desempenhou um papel importante na criação do Estúdio de Música Eletrónica da Rádio da Alemanha Ocidental (WDR) em Colónia, em 1951.

A primeira utilização de um vocoder para criar música ocorreu em 1959, também na Alemanha. Entre 1956 e 1959, a Siemens desenvolveu o Sintetizador Siemens, que podia converter som em fala. Em 1968, Robert Moog, fundador da empresa Moog, desenvolveu um dos primeiros vocoders projetados especificamente para uso na indústria musical. Este vocoder foi encomendado pela Universidade de Buffalo.

Desde então, a história do vocoder evoluiu por conta própria e tornou-se amplamente utilizado em todas as áreas de áudio e vídeo. O instrumento tornou-se conhecido do público em geral graças ao grupo Kraftwerk, que montou de forma independente um vocoder para as suas experiências e o utilizou desde a sua fundação em 1970. O exemplo mais famoso e popular do uso de um vocoder foi o álbum «Trans-Europe Express» do Kraftwerk, que examinámos em detalhe numa análise de instrumentos musicais incomuns de artistas eletrónicos alemães.

Como funciona um vocoder?

É melhor usar dois sinais do que um. O vocoder requer duas fontes de som para funcionar:

Operador: sinal sonoro inicial;
Modulador: um sinal com características harmónicas diferentes que determinam o som do operador.

O som passa por um «banco de filtros» especial que analisa o sinal do modulador, divide-o em bandas de frequência e aplica um filtro a cada banda. Os filtros são sempre ajustados de forma que o ponto de corte fique exatamente no centro de cada faixa do sinal do modulador. Independentemente da densidade de corte, o sinal dentro de cada faixa é filtrado no centro.

Em seguida, o sinal do operador é fornecido ao modulador, que passa por todos os filtros. O vocoder ajusta o ponto de corte de cada filtro dependendo dos harmónicos e sobretons no sinal do modulador.

Para entender o princípio de funcionamento de um vocoder, podemos fazer uma analogia com a voz humana. O som da voz é formado pelos sinais dos operadores e moduladores. Quando pronunciamos palavras, um fluxo de ar passa pelas cordas vocais, criando o operador de sinal original. Ao mesmo tempo, outras partes do aparelho vocal vibram, gerando um sinal modulador. Essas características afetam diretamente o som da voz.

Um vocoder funciona de maneira semelhante: ele modifica o sinal original devido às características do sinal adicional.

Qualquer sinal de áudio pode ser um operador ou um modulador. Os produtores costumam usar sons sintetizados como operadores e a voz como modulador. Um exemplo do uso de um vocoder na música é a faixa “Trans-Europe Express”, da banda Kraftwerk. O operador é o sinal do sintetizador e o modulador é a fala comum.

Um uso mais experimental do vocoder pode ser visto na faixa “Nightcall”, de Kavinsky. Esse efeito pode ser recriado usando o iZotope VocalSynth, configurando o patch para gerar acordes a partir de duas ondas sonoras e ruído branco como operador, modulado pela voz.

Como usar um vocoder

Para que um vocoder soe tão impressionante quanto muitas gravações comerciais, o operador de sinal deve ser rico em sobretons. Quanto mais rico e variado for o operador, mais forte será o impacto do modulador.

É melhor começar a experimentar com patches que usam ou são baseados na forma de onda serrilhada. Os sinais de onda rampa são normalmente mais ricos e intensos do que as ondas triangulares ou senoidais. Também é uma boa prática comprimir ou saturar o sinal do operador antes de o enviar para o vocoder. Isto irá destacar o efeito do sinal que passa pelo banco de filtros.

A voz que atua como modulador requer atenção especial. Ao escrever palavras, deve ser muito claro e preciso, enfatizando cada som. Não importa o tipo de voz que tenha, é importante que a articulação seja pronunciada. É a precisão e a clareza que criam o efeito característico do vocoder que dá uma voz robótica. Observe como em “Nightcall”, de Kavinsky, cada palavra é pronunciada de forma clara e lenta. Ao trabalhar com um vocoder, é importante monitorar a articulação para evitar distorções.

O tom de voz não é tão importante ao usar um vocoder. Concentre-se em outras características da voz: timbre, profundidade, clareza e definição. Em vez de experimentar com o alcance, é melhor trabalhar a expressão e a entoação.

Quais parâmetros controlam o funcionamento do vocoder?

Os vocoders de hardware e software (VST) geralmente têm um conjunto semelhante de parâmetros. Na maioria dos casos, as suas configurações são semelhantes: embora os nomes dos controlos e parâmetros possam variar dependendo do fabricante, a sua essência permanece aproximadamente a mesma.

Número de bandas

O controlo Bandas controla como o sinal de áudio é dividido em diferentes gamas de frequência. A posição deste controlo determina em quantas partes o sinal do modulador será dividido. Ao contrário dos vocoders de software e plug-ins, os dispositivos mais antigos têm um limite no número de gamas de frequência em que o sinal pode ser dividido. Para criar um som robótico tradicional semelhante ao estilo Kraftwerk, recomenda-se definir o parâmetro Bandas na gama de 8 a 12 valores.

Intervalo de frequência

Este parâmetro determina a faixa de frequências que será usada no processo de processamento do sinal do operador. Ao operar o vocoder, apenas as frequências dentro deste intervalo especificado serão levadas em consideração, o resto será ignorado. Para melhorar a clareza do áudio, recomenda-se definir o limite superior acima de 5 kHz.

Formantes

Alguns modelos de vocoder têm um recurso de ajuste de formante, frequentemente chamado de “Shift”. Com essa opção, o utilizador pode alterar a largura ou estreiteza das bandas para filtrar o áudio. Aumentar os formantes torna o sinal processado mais brilhante, enquanto reduzi-los torna o sinal processado mais escuro e profundo.

Normalmente, o ajuste do formante é usado para ajustar o vocoder para vozes femininas ou masculinas, com o deslocamento tornando a voz robótica mais feminina ou masculina. Alguns modelos de vocoder, em vez de ajustar os formantes, têm um parâmetro "Gender", que permite ajustar o género da voz resultante.

Sem voz

A fala humana em qualquer idioma é sempre acompanhada pelos chamados sons plosivos. Um som explosivo ocorre no momento em que, para pronunciá-lo, é necessário passar um fluxo de ar através dos lábios fechados, por exemplo, ao pronunciar as letras «P» e «B». Os plosivos não são sons vocais, por isso são frequentemente chamados de sons não vocais.

Os sons não vocais não têm um tom específico e são ruídos em toda a gama de frequências que o vocoder ignora. Mas não se deve regozijar com a exclusão desses ruídos: imagine como soariam palavras familiares sem as letras «P» e «B» («habitual» – «rich», «problem» – «rolema»).

Para evitar que o vocoder perca sons plosivos e «engula» letras nas palavras, os fabricantes adicionam um parâmetro especial «Unvoiced» (Não vocal) à secção de configurações. Este controlo está ligado a um gerador de ruído, que corrige deficiências no funcionamento do vocoder: quanto mais o parâmetro é girado, mais forte é a correção. O gerador de ruído reproduz um sinal com uma forma de onda sonora semelhante ao sinal do operador. Todas as plosivas sem altura e transitórias permanecem no sinal, as letras nas palavras são preservadas e os sons da fala ficam corretos após o vocoder.

Autor

Antony Tornver

Publicado

April 27, 2024

audio effects