O que é Vocoder
O vocoder foi inventado na década de 1920 para fins de comunicação e comunicação. Porém, seu verdadeiro propósito foi descoberto na música eletrônica, onde se tornou uma ferramenta fundamental para a criação de vozes robóticas. Quase cem anos após seu surgimento, o vocoder é usado ativamente na indústria musical, mas nem todo mundo sabe como funciona esse instrumento único e como usá-lo. Neste texto você aprenderá como a Segunda Guerra Mundial popularizou os sintetizadores de voz, como funciona o vocoder e como usá-lo corretamente.
O desenvolvimento do vocoder começou em 1928 através do trabalho de um engenheiro chamado Homer Dudley no Bell Labs. No final da década de 1930, o resultado final foi alcançado e, em novembro de 1937, Dudley recebeu a primeira patente para sua invenção, e em 1939 – a segunda. A ideia principal de Dudley era recriar o aparelho da fala humana usando a eletrônica. Utilizando componentes e efeitos eletrônicos, o engenheiro procurou imitar o mais fielmente possível o funcionamento dos órgãos da fala humana, reproduzindo os sons criados pela passagem do ar por diversas partes do corpo humano, como os pulmões e outros órgãos.
Em 1939, o Bell Labs demonstrou ao público um dispositivo de síntese de voz chamado VODER (Voice Operating Demonstrator) por meio de uma série de demonstrações em Nova York e São Francisco. O dispositivo apresentava um par de osciladores comutáveis e um gerador de ruído como fonte de áudio. Um caminho vocal dedicado composto por filtros de dez bandas foi conectado a um teclado sensível à velocidade que controlava a intensidade da filtragem. O tom do som foi alterado usando um pedal. Teclas adicionais foram responsáveis por gerar as letras “P”, “D”, “J”, além das combinações sonoras “JAW” e “CH”.
O VODER era um dispositivo complexo que exigia treinamento especializado e treinamento com duração de vários meses para ser usado. Para demonstrações diárias, o Bell Labs treinou especialmente 20 pessoas, que se revezaram na apresentação do novo produto a todos os interessados. Durante a manifestação, VODER disse a frase “Boa tarde, audiência da rádio!”
Em 1949, foi desenvolvido o conversor de voz KO-6, que codificava fala e informações a uma taxa de 1.200 bits por segundo. Em 1953, apareceu outro vocoder, o KY-9 THESEUS, que não só aumentou a velocidade de processamento para 1650 bits por segundo, mas também utilizou diversos componentes. Graças aos materiais modificados, foi possível reduzir o peso do vocoder de 55 toneladas para o SIGSALY para 256 kg para o KY-9. Finalmente, em 1961, com o lançamento do conversor HY-2, foi possível reduzir o peso do vocoder para 45 quilos, e também aumentar a velocidade de codificação para 2.400 bits por segundo. O HY-2 foi o último vocoder industrial utilizado em sistemas de comunicações seguras, enquanto o instrumento permaneceu no setor de consumo.
Em 1948, o cientista alemão Werner Mayer-Eppler, que tinha especial interesse em síntese de voz, publicou uma dissertação sobre síntese de fala e música eletrônica do ponto de vista da síntese sonora. Mais tarde, seu conhecimento desempenhou um papel importante na criação do Estúdio de Música Eletrônica da Rádio da Alemanha Ocidental (WDR) em Colônia, em 1951.
O primeiro uso de um vocoder para criar música ocorreu em 1959, também na Alemanha. Entre 1956 e 1959, a Siemens desenvolveu o Sintetizador Siemens, que poderia converter som em fala. Em 1968, Robert Moog, fundador da empresa Moog, desenvolveu um dos primeiros vocoders projetados especificamente para uso na indústria musical. Este vocoder foi encomendado pela Universidade de Buffalo.
Desde então, a história do vocoder evoluiu por conta própria e tornou-se amplamente utilizado em todas as áreas de áudio e vídeo. O instrumento tornou-se conhecido do público em geral graças ao grupo Kraftwerk, que montou de forma independente um vocoder para seus experimentos e o utilizou desde sua fundação em 1970. O exemplo mais famoso e popular de uso de um vocoder foi o álbum do Kraftwerk “Trans-Europe Express ”, que examinamos detalhadamente em uma análise de instrumentos musicais incomuns de artistas eletrônicos alemães.
Como funciona um codificador de voz?
É melhor usar dois sinais do que um. O vocoder requer duas fontes de som para funcionar:
- Operadora: sinal sonoro inicial;
- Modulador: sinal com diferentes características harmônicas que determinam o som do operador.
O som passa por um “banco de filtros” especial que analisa o sinal do modulador, divide-o em bandas de frequência e aplica um filtro a cada banda. Os filtros são sempre ajustados para que o ponto de corte fique exatamente no centro de cada faixa do sinal do modulador. Independentemente da densidade de corte, o sinal dentro de cada faixa é filtrado no centro.
Em seguida, o sinal da operadora é fornecido ao modulador, que passa por todos os filtros. O vocoder ajusta o ponto de corte de cada filtro dependendo dos harmônicos e sobretons do sinal do modulador.
Para entender o princípio de funcionamento de um vocoder, podemos fazer uma analogia com a voz humana. O som da voz é formado pelos sinais dos operadores e moduladores. Quando pronunciamos palavras, um fluxo de ar passa pelas cordas vocais, criando o operador de sinal original. Ao mesmo tempo, outras partes do aparelho vocal vibram, gerando um sinal modulador. Essas características afetam diretamente o som da voz.
Um vocoder funciona de maneira semelhante: modifica o sinal original devido às características do sinal adicional.
Qualquer sinal de áudio pode ser um operador ou um modulador. Os produtores costumam usar sons sintetizados como operadores e a voz como modulador. Um exemplo do uso de vocoder na música é a faixa “Trans-Europe Express” do Kraftwerk. O operador é o sinal do sintetizador e o modulador é a fala comum.
Um uso mais experimental do vocoder pode ser visto na faixa “Nightcall” de Kavinsky. Este efeito pode ser recriado usando o iZotope VocalSynth configurando o patch para gerar acordes a partir de duas ondas sonoras e ruído branco como operador, modulado pela voz.
Como usar um codificador de voz
Para que um vocoder soe tão impressionante quanto muitas gravações comerciais, o operador do sinal deve ser rico em tons. Quanto mais rico e variado for o operador, mais forte será o impacto do modulador.
É melhor começar a experimentar patches que usam ou são baseados na forma de onda sonora dente de serra. Os sinais de onda em rampa são normalmente cada vez mais ricos do que as ondas triangulares ou senoidais. Também é uma boa prática comprimir ou saturar o sinal do operador antes de alimentá-lo no vocoder. Isto irá destacar o efeito do sinal que passa pelo banco de filtros.
A atuação da voz como modulador requer atenção especial. Ao escrever palavras, você deve ser muito claro e preciso, enfatizando cada som. Não importa o tipo de voz que você tenha, é importante que a articulação seja pronunciada. É a precisão e a clareza que criam o efeito vocoder característico que proporciona uma voz robótica. Observe como em “Nightcall” de Kavinsky cada palavra é pronunciada de forma clara e lenta. Ao trabalhar com um vocoder, é importante monitorar a articulação para evitar distorções.
O tom da voz não é tão importante ao usar um vocoder. Concentre-se em outras características da voz: timbre, profundidade, clareza e definição. Em vez de experimentar o alcance, é melhor trabalhar a expressão e a entonação.
Quais parâmetros controlam a operação do vocoder?
Os vocoders de hardware e software (VST) geralmente têm um conjunto semelhante de parâmetros. Na maioria dos casos, suas configurações são semelhantes: embora os nomes dos controles e parâmetros possam variar dependendo do fabricante, sua essência permanece aproximadamente a mesma.
Número de bandas
O controle Bands controla como o sinal de áudio é dividido em diferentes faixas de frequência. A posição deste controle determina em quantas partes o sinal do modulador será dividido. Ao contrário dos vocoders e plug-ins de software, os dispositivos mais antigos têm um limite no número de faixas de frequência nas quais o sinal pode ser dividido. Para criar um som robótico tradicional semelhante ao estilo Kraftwerk, é recomendado definir o parâmetro Bands na faixa de 8 a 12 valores.
Alcance de frequência
Este parâmetro determina a faixa de frequências que será utilizada no processo de processamento do sinal do operador. Ao operar o vocoder, apenas as frequências dentro deste intervalo especificado serão levadas em consideração, o restante será ignorado. Para melhorar a clareza do áudio, recomenda-se definir o limite superior acima de 5 kHz.
Formante
Alguns modelos de vocoder possuem um recurso de ajuste de formante, geralmente chamado de “Shift”. Com esta opção, o usuário pode alterar a largura ou estreiteza das bandas para filtrar o áudio. Aumentar os formantes torna o sinal processado mais brilhante, enquanto reduzi-lo torna o sinal processado mais escuro e profundo.
Normalmente, o ajuste de formante é usado para ajustar o vocoder para vozes femininas ou masculinas, com a mudança tornando a voz robótica mais feminina ou masculina. Alguns modelos de vocoder, ao invés de ajustar os formantes, possuem um parâmetro “Gênero”, que permite ajustar o gênero da voz resultante.
Sem voz
A fala humana em qualquer idioma é sempre acompanhada pelos chamados sons plosivos. Um som explosivo ocorre no momento em que, para pronunciá-lo, é necessário passar um jato de ar pelos lábios fechados, por exemplo, ao pronunciar as letras “P” e “B”. As plosivas não são sons vocais, por isso são frequentemente chamadas de sons surdos.
Os sons não vocais não têm altura específica e são ruídos em toda a faixa de frequência que o vocoder ignora. Mas não se alegre com a exclusão de tais ruídos: imagine como soam palavras familiares sem as letras “P” e “B” (“habitual” – “rico”, “problema” – “rolema”).
Para evitar que o vocoder perca sons plosivos e “engula” letras em palavras, os fabricantes adicionam um parâmetro especial “Unvoiced” à seção de configurações. Este controle está conectado a um gerador de ruído, que corrige falhas no funcionamento do vocoder: quanto mais o parâmetro for girado, mais forte será a correção. O gerador de ruído reproduz um sinal com forma de onda sonora semelhante ao sinal do operador. Todas as plosivas sem afinação e transicionais permanecem no sinal, as letras das palavras são preservadas e os sons da fala são corretos após o vocoder.