Co to jest Vocoder

Author

Antony Tornver

Published

April 27, 2024

Wokoder został wynaleziony w latach 20. XX wieku do celów komunikacyjnych. Jednak jego prawdziwe przeznaczenie odkryto w muzyce elektronicznej, gdzie stał się kluczowym narzędziem do tworzenia robotycznych głosów. Prawie sto lat po pojawieniu się vocoder jest aktywnie wykorzystywany w przemyśle muzycznym, ale nie wszyscy wiedzą, jak działa to wyjątkowe urządzenie i jak z niego korzystać. W tym tekście dowiesz się, jak II wojna światowa przyczyniła się do popularyzacji syntezatorów mowy, jak działa vocoder i jak prawidłowo z niego korzystać.

Prace nad vocoderem rozpoczęły się w 1928 roku dzięki wysiłkom inżyniera Homera Dudleya z Bell Labs. Pod koniec lat 30. osiągnięto ostateczny rezultat, a w listopadzie 1937 roku Dudley otrzymał pierwszy patent na swój wynalazek, a w 1939 roku – drugi. Główną ideą Dudleya było odtworzenie aparatu mowy człowieka za pomocą elektroniki. Wykorzystując komponenty elektroniczne i efekty, inżynier starał się jak najdokładniej naśladować funkcjonowanie ludzkich narządów mowy, odtwarzając dźwięki powstające w wyniku przepływu powietrza przez różne części ciała ludzkiego, takie jak płuca i inne narządy.

W 1939 roku Bell Labs zaprezentowało publiczności urządzenie do syntezy mowy o nazwie VODER (Voice Operating Demonstrator) podczas serii pokazów w Nowym Jorku i San Francisco. Urządzenie było wyposażone w parę przełączalnych oscylatorów i generator szumu jako źródło dźwięku. Specjalna ścieżka głosowa składająca się z dziesięciopasmowych filtrów była połączona z klawiaturą czułą na prędkość, która kontrolowała intensywność filtrowania. Wysokość dźwięku była zmieniana za pomocą pedału nożnego. Dodatkowe klawisze odpowiadały za generowanie liter „P”, „D”, „J”, a także kombinacji dźwięków „JAW” i „CH”.

VODER był złożonym urządzeniem, którego obsługa wymagała specjalistycznego szkolenia trwającego kilka miesięcy. Do codziennych pokazów Bell Labs przeszkoliło specjalnie 20 osób, które na zmianę prezentowały nowy produkt wszystkim zainteresowanym. Podczas pokazu VODER wypowiedział zdanie „Dzień dobry, słuchacze radia!”.

W 1949 roku opracowano konwerter głosu KO-6, który kodował mowę i informacje z prędkością 1200 bitów na sekundę. W 1953 roku pojawił się kolejny wokoder, KY-9 THESEUS, który nie tylko zwiększył prędkość przetwarzania do 1650 bitów na sekundę, ale także wykorzystywał inne komponenty. Dzięki zmodyfikowanym materiałom udało się zmniejszyć wagę wokodera z 55 ton w przypadku SIGSALY do 256 kilogramów w przypadku KY-9. Wreszcie w 1961 roku, wraz z wprowadzeniem na rynek konwertera HY-2, udało się zmniejszyć wagę wokodera do 45 kilogramów, a także zwiększyć prędkość kodowania do 2400 bitów na sekundę. HY-2 był ostatnim przemysłowym vocoderem używanym w bezpiecznych systemach komunikacyjnych, podczas gdy instrument pozostał w sektorze konsumenckim.

W 1948 roku niemiecki naukowiec Werner Mayer-Eppler, który interesował się syntezą głosu, opublikował rozprawę na temat syntezy mowy i muzyki elektronicznej z punktu widzenia syntezy dźwięku. Jego wiedza odegrała później ważną rolę w utworzeniu studia muzyki elektronicznej West German Radio (WDR) w Kolonii w 1951 roku.

Pierwsze wykorzystanie vocodera do tworzenia muzyki miało miejsce w 1959 roku, również w Niemczech. W latach 1956-1959 firma Siemens opracowała syntezator Siemens, który mógł przekształcać dźwięk w mowę. W 1968 roku Robert Moog, założyciel firmy Moog, opracował jeden z pierwszych vocoderów zaprojektowanych specjalnie do użytku w przemyśle muzycznym. Vocoder ten został zamówiony przez Uniwersytet w Buffalo.

Od tego czasu historia vocodera rozwijała się samodzielnie, a urządzenie to stało się powszechnie stosowane we wszystkich obszarach audio i wideo. Instrument ten stał się znany szerokiej publiczności dzięki grupie Kraftwerk, która samodzielnie złożyła vocoder do swoich eksperymentów i używała go od momentu powstania w 1970 roku. Najbardziej znanym i popularnym przykładem wykorzystania vocodera był album Kraftwerk „Trans-Europe Express”, który szczegółowo omówiliśmy w recenzji niezwykłych instrumentów muzycznych niemieckich artystów elektronicznych.

Jak działa vocoder?

Lepiej jest używać dwóch sygnałów niż jednego. Vocoder wymaga dwóch źródeł dźwięku do działania:

Operator: początkowy sygnał dźwiękowy;
Modulator: sygnał o różnych charakterystykach harmonicznych, które determinują dźwięk operatora.

Dźwięk przechodzi przez specjalny „bank filtrów”, który analizuje sygnał modulatora, dzieli go na pasma częstotliwości i stosuje filtr do każdego pasma. Filtry są zawsze regulowane tak, aby punkt odcięcia znajdował się dokładnie w środku każdego zakresu sygnału modulatora. Niezależnie od gęstości cięcia, sygnał w każdym zakresie jest filtrowany w środku.

Następnie sygnał operatora jest dostarczany do modulatora, który przechodzi przez wszystkie filtry. Vocoder dostosowuje punkt odcięcia każdego filtra w zależności od harmonicznych i alikwotów w sygnale modulatora.

Aby zrozumieć zasadę działania wokodera, możemy posłużyć się analogią do ludzkiego głosu. Dźwięk głosu jest tworzony przez sygnały operatorów i modulatorów. Kiedy wymawiamy słowa, strumień powietrza przepływa przez struny głosowe, tworząc oryginalny sygnał operatora. W tym samym czasie inne części aparatu głosowego wibrują, generując sygnał modulatora. Cechy te mają bezpośredni wpływ na brzmienie głosu.

Wokoder działa w podobny sposób: modyfikuje oryginalny sygnał w zależności od charakterystyki dodatkowego sygnału.

Każdy sygnał audio może być operatorem lub modulatorem. Producenci często używają syntetycznych dźwięków jako operatorów, a głosu jako modulatora. Przykładem wykorzystania wokodera w muzyce jest utwór „Trans-Europe Express” zespołu Kraftwerk. Operatorem jest sygnał syntezatora, a modulatorem zwykła mowa.

Bardziej eksperymentalne wykorzystanie vocodera można zobaczyć w utworze „Nightcall” Kavinsky'ego. Efekt ten można odtworzyć za pomocą iZotope VocalSynth, ustawiając patch tak, aby generował akordy z dwóch fal dźwiękowych i białego szumu jako operatora, modulowanego przez głos.

Jak używać vocodera

Aby vocoder brzmiał tak imponująco, jak wiele komercyjnych nagrań, operator sygnału musi być bogaty w alikwoty. Im bogatszy i bardziej zróżnicowany operator, tym silniejszy wpływ modulatora.

Najlepiej zacząć eksperymentować z patchami, które wykorzystują lub są oparte na przebiegu fali piłokształtnej. Sygnały rampowe są zazwyczaj bogatsze i bardziej nasycone niż fale trójkątne lub sinusoidalne. Dobrą praktyką jest również kompresja lub nasycenie sygnału operatora przed wprowadzeniem go do vocodera. Podkreśli to efekt przejścia sygnału przez bank filtrów.

Głos pełniący rolę modulatora wymaga szczególnej uwagi. Podczas pisania słów należy być bardzo wyraźnym i precyzyjnym, podkreślając każdy dźwięk. Niezależnie od rodzaju głosu, ważne jest, aby artykulacja była wyraźna. To właśnie precyzja i klarowność tworzą charakterystyczny efekt vocodera, który nadaje głosowi robotyczny charakter. Zwróć uwagę, jak w utworze „Nightcall” Kavinsky'ego każde słowo jest wymawiane wyraźnie i powoli. Podczas pracy z vocoderem ważne jest monitorowanie artykulacji, aby uniknąć zniekształceń.

Wysokość głosu nie jest tak ważna podczas korzystania z vocodera. Skoncentruj się na innych cechach głosu: barwie, głębi, czystości i wyrazistości. Zamiast eksperymentować z zakresem, lepiej popracować nad ekspresją i intonacją.

Jakie parametry kontrolują działanie vocodera?

Zarówno sprzętowe, jak i programowe (VST) vocodery mają zazwyczaj podobny zestaw parametrów. W większości przypadków ich ustawienia są podobne: chociaż nazwy elementów sterujących i parametrów mogą się różnić w zależności od producenta, ich istota pozostaje w przybliżeniu taka sama.

Liczba pasm

Regulator pasm kontroluje sposób podziału sygnału audio na różne zakresy częstotliwości. Położenie tego regulatora określa, na ile części zostanie podzielony sygnał modulatora. W przeciwieństwie do vocoderów programowych i wtyczek, starsze urządzenia mają ograniczenie liczby zakresów częstotliwości, na które można podzielić sygnał. Aby uzyskać tradycyjny, robotyczny dźwięk podobny do stylu Kraftwerk, zaleca się ustawienie parametru pasm w zakresie od 8 do 12 wartości.

Zakres częstotliwości

Ten parametr określa zakres częstotliwości, które będą wykorzystywane w procesie przetwarzania sygnału operatora. Podczas pracy wokodera brane są pod uwagę tylko częstotliwości z tego określonego przedziału, pozostałe są ignorowane. Aby poprawić czystość dźwięku, zaleca się ustawienie górnej granicy powyżej 5 kHz.

Formant

Niektóre modele vocoderów mają funkcję regulacji formantu, często nazywaną „Shift”. Dzięki tej opcji użytkownik może zmieniać szerokość lub wąskość pasm filtrujących dźwięk. Zwiększenie formantu sprawia, że przetworzony sygnał jest jaśniejszy, a zmniejszenie go sprawia, że przetworzony sygnał jest ciemniejszy i głębszy.

Zazwyczaj regulacja formantów służy do dostosowania vocodera do głosów kobiecych lub męskich, a przesunięcie sprawia, że głos robota staje się bardziej kobiecy lub męski. Niektóre modele vocoderów zamiast regulacji formantów mają parametr „Gender”, który pozwala dostosować płeć uzyskanego głosu.

Bezdźwięczne

Mowa ludzka w każdym języku zawsze towarzyszy tak zwanym dźwiękom wybuchowym. Dźwięk wybuchowy pojawia się w momencie, gdy aby go wymawiać, konieczne jest przepuszczenie strumienia powietrza przez zamknięte usta, na przykład podczas wymawiania liter „P” i „B”. Dźwięki wybuchowe nie są dźwiękami głosowymi, dlatego często nazywane są dźwiękami bezdźwięcznymi.

Dźwięki niewokalne nie mają określonej wysokości i są szumem w całym zakresie częstotliwości, który vocoder ignoruje. Nie należy jednak cieszyć się z wykluczenia takich szumów: wyobraź sobie, jak brzmią znane słowa bez liter „P” i „B” („habitual” – „rich”, „problem” – „rolema”).

Aby zapobiec pomijaniu przez vocoder dźwięków wybuchowych i „połykaniu” liter w słowach, producenci dodają do sekcji ustawień specjalny parametr „Unvoiced” (Bezdźwięczny). Element ten jest połączony z generatorem szumu, który koryguje niedoskonałości działania vocodera: im bardziej parametr jest obrócony, tym silniejsza jest korekta. Generator szumu odtwarza sygnał o przebiegu fali dźwiękowej podobnym do sygnału operatora. Wszystkie bezdźwięczne i przejściowe spółgłoski zwarto-wybuchowe pozostają w sygnale, litery w słowach są zachowane, a dźwięki mowy są poprawne po vocoderze.

Author

Antony Tornver

Published

April 27, 2024

audio effects