ボコーダーとは

ボコーダーは 1920 年代に通信および通信目的で発明されました。しかし、その真の目的は電子音楽で発見され、ロボット音声を作成するための重要なツールとなりました。登場からほぼ 100 年が経ち、ボコーダーは音楽業界で積極的に使用されていますが、このユニークな楽器がどのように機能し、どのように使用するかを誰もが知っているわけではありません。このテキストでは、第二次世界大戦がどのようにしてスピーチシンセサイザーを普及させたのか、ボコーダーがどのように機能し、その正しい使用方法を学ぶことができます。

ボコーダーの開発は、ベル研究所のホーマー・ダドリーというエンジニアの仕事を通じて 1928 年に始まりました。 1930 年代の終わりまでに最終結果が達成され、1937 年 11 月にダドリーは彼の発明で最初の特許を取得し、1939 年に 2 番目の特許を取得しました。ダドリーの主なアイデアは、電子機器を使用して人間の音声装置を再現することでした。電子部品とエフェクトを使用して、エンジニアは人間の音声器官の機能を可能な限り忠実に模倣し、肺やその他の器官などの人体のさまざまな部分を空気が通過することによって生成される音を再現しようとしました。

1939 年、ベル研究所は、ニューヨークとサンフランシスコでの一連のデモンストレーションを通じて、VODER (音声操作デモンストレーター) と呼ばれる音声合成装置を一般にデモンストレーションしました。このデバイスは、オーディオソースとして、一対の切り替え可能なオシレーターとノイズジェネレーターを備えていました。 10 バンドのフィルターで構成される専用のボーカルパスは、フィルターの強度を制御するベロシティ感知キーボードにリンクされています。音のピッチはフットペダルで変更しました。追加のキーは、文字「P」、「D」、「J」、および音の組み合わせ「JAW」と「CH」を生成する役割を果たしました。

VODERは複雑な装置で、使用するには専門的な訓練と数か月にわたる訓練が必要でした。毎日のデモンストレーションのために、ベル研究所は 20 人を特別に訓練し、興味のある人全員に順番に新製品を紹介しました。デモンストレーション中、VODER は「ラジオ視聴者の皆さん、こんにちは!」というフレーズを発しました。

1949 年に、音声と情報を 1200 ビット/秒の速度でエンコードする KO-6 音声コンバータが開発されました。 1953 年に、別のボコーダー KY-9 THESEUS が登場しました。これは、処理速度が 1650 ビット/秒に向上しただけでなく、異なるコンポーネントも使用されました。改良された材料のおかげで、ボコーダーの重量を SIGSALY の 55 トンから KY-9 の 256 kg に減らすことができました。最後に、1961 年に HY-2 コンバーターがリリースされたことで、ボコーダーの重量を 45 キログラムに減らすことができ、エンコード速度も 2400 ビット/秒に高めることができました。 HY-2 は安全な通信システムで使用される最後の産業用ボコーダーでしたが、この機器は民生部門に残りました。

1948 年、音声合成に特別な関心を持っていたドイツの科学者ヴェルナーマイヤーエプラーは、音声合成の観点から音声合成と電子音楽に関する論文を発表しました。彼の知識は、後に 1951 年にケルンに西ドイツ放送 (WDR) 電子音楽スタジオを設立する際に重要な役割を果たしました。

音楽作成にボコーダーが初めて使用されたのは 1959 年で、やはりドイツで行われました。 1956 年から 1959 年にかけて、シーメンスは音を音声に変換できるシーメンスシンセサイザーを開発しました。 1968 年、Moog 社の創設者である Robert Moog は、音楽業界での使用に特化して設計された最初のボコーダーの 1 つを開発しました。このボコーダーはバッファロー大学から委託されました。

それ以来、ボコーダーの歴史は独自の進化を遂げ、オーディオとビデオのあらゆる分野で広く使用されるようになりました。この楽器が一般に知られるようになったのは、クラフトワークグループが実験用にボコーダーを独自に組み立て、1970 年の設立以来使用してきたおかげです。ボコーダーを使用した最も有名で人気のある例は、クラフトワークのアルバム「トランスヨーロッパエクスプレス」です。」では、ドイツのエレクトロニックアーティストによる珍しい楽器のレビューで詳細に検討しました。

ボコーダーはどのように機能しますか?

1 つの信号よりも 2 つの信号を使用する方が適切です。ボコーダーが動作するには 2 つの音源が必要です。

オペレータ: 初期音声信号;
モジュレーター: オペレーターのサウンドを決定するさまざまな倍音特性を持つ信号。

サウンドは、モジュレーター信号を分析し、それを周波数帯域に分割し、各帯域にフィルターを適用する特別な「フィルターバンク」を通過します。フィルタは常に、カットオフポイントが変調器信号の各範囲の中心に正確に位置するように調整されます。スライス密度に関係なく、各範囲内の信号は中央でフィルタリングされます。

次に、オペレーター信号が変調器に供給され、すべてのフィルターを通過します。ボコーダーは、モジュレーター信号の高調波と倍音に応じて各フィルターのカットオフポイントを調整します。

ボコーダーの動作原理を理解するには、人間の声に例えることができます。音声はオペレーターと変調器の信号によって形成されます。私たちが言葉を発音するとき、空気の流れが声帯を通過し、元の信号演算子を作成します。同時に、ボーカル装置の他の部分が振動し、モジュレーター信号を生成します。これらの特性は声のサウンドに直接影響します。

ボコーダーも同様の方法で動作し、追加信号の特性に応じて元の信号を変更します。

あらゆるオーディオ信号がオペレーターまたはモジュレーターになる可能性があります。プロデューサーは合成サウンドをオペレーターとして使用し、音声をモジュレーターとして使用することがよくあります。音楽におけるボコーダーの使用例としては、クラフトワークのトラック「Trans-Europe Express」があります。演算子はシンセサイザー信号、変調器は通常の音声です。

ボコーダーのより実験的な使用法は、Kavinsky のトラック「Nightcall」で見ることができます。このエフェクトは、iZotope VocalSynth を使用して、音声で変調された 2 つの音波とホワイトノイズからコードを生成するようにパッチをオペレーターとして設定することで再現できます。

ボコーダーの使い方

ボコーダーが多くの商用録音と同じくらい印象的なサウンドを実現するには、信号オペレーターが倍音を豊富に含んでいる必要があります。オペレーターがより豊かで変化に富むほど、モジュレーターの影響はより強くなります。

ノコギリ波サウンド波形を使用する、またはそれに基づくパッチを試し始めるのが最善です。ランプ波信号は通常、三角波や正弦波よりも豊かになります。オペレーター信号をボコーダーに供給する前に、オペレーター信号を圧縮または飽和させることも推奨されます。これにより、フィルターバンクを通過する信号の効果が強調表示されます。

変調器として機能する音声には特別な注意が必要です。言葉を書くときは、それぞれの音を強調し、非常に明確かつ正確に書く必要があります。どのようなタイプの声を持っていても、アーティキュレーションが発音されることが重要です。ロボットのような声を与える特徴的なボコーダーエフェクトを生み出すのは、正確さと明瞭さです。カビンスキーの「ナイトコール」では、それぞれの単語が明確かつゆっくりと発音されていることに注目してください。ボコーダーを使用する場合、歪みを避けるためにアーティキュレーションを監視することが重要です。

ボコーダーを使用する場合、声のピッチはそれほど重要ではありません。声の他の特性、つまり音色、深さ、明瞭さ、鮮明さに焦点を当てます。音域を試すよりも、表現とイントネーションに取り組む方が良いでしょう。

ボコーダーの動作を制御するパラメーターは何ですか?

通常、ハードウェアボコーダーとソフトウェア (VST) ボコーダーの両方に、同様のパラメーターセットがあります。ほとんどの場合、それらの設定は似ています。コントロールとパラメーターの名前はメーカーによって異なりますが、本質はほぼ同じです。

バンド数

Bands コントロールは、オーディオ信号をさまざまな周波数範囲に分割する方法を制御します。このコントロールの位置によって、モジュレーター信号がいくつの部分に分割されるかが決まります。ソフトウェアボコーダーやプラグインとは異なり、古いデバイスでは信号を分割できる周波数範囲の数に制限があります。クラフトワークスタイルに似た伝統的なロボットサウンドを作成するには、[バンド] パラメーターを 8 ～ 12 の値の範囲に設定することをお勧めします。

周波数範囲

このパラメータは、オペレータ信号処理プロセスで使用される周波数の範囲を決定します。ボコーダーを操作する場合、この指定された間隔内の周波数のみが考慮され、残りは無視されます。オーディオの明瞭度を向上させるには、上限を 5 kHz より高く設定することをお勧めします。

フォルマント

一部のボコーダーモデルには、「シフト」と呼ばれるフォルマント調整機能が備わっています。このオプションを使用すると、ユーザーは帯域の幅または狭さを変更してオーディオをフィルタリングできます。フォルマントを増やすと処理された信号は明るくなり、フォルマントを減らすと処理された信号は暗く深くなります。

通常、フォルマント調整はボコーダーを女性または男性の声に調整するために使用され、シフトによりロボットの声がより女性的または男性的になります。一部のボコーダーモデルには、フォルマントを調整する代わりに、生成される音声の性別を調整できる「Gender」パラメータがあります。

無声

人間の音声は、どの言語であっても常にいわゆる破裂音を伴います。爆発音は、文字「P」や「B」を発音するときなど、発音するために閉じた唇に空気の流れを通す必要がある瞬間に発生します。破裂音は音声ではないため、無声音と呼ばれることがよくあります。

非ボーカルサウンドには特定のピッチがなく、ボコーダーが無視する周波数範囲全体にわたるノイズです。しかし、そのようなノイズの排除を喜ぶべきではありません。「P」と「B」の文字なしでおなじみの単語がどのように聞こえるかを想像してください（「習慣」-「豊か」、「問題」-「役割」）。

ボコーダーが破裂音を見逃したり、単語内の文字を「飲み込む」ことを防ぐために、メーカーは特別な「無声」パラメータを設定セクションに追加します。このコントロールはノイズジェネレーターに接続されており、ボコーダーの動作の欠点を修正します。パラメーターを回すほど、修正が強くなります。ノイズジェネレーターは、オペレーター信号と同様の音声波形を持つ信号を再生します。すべての高低のない破裂音と過渡的な破裂音は信号内に残り、単語内の文字は保持され、ボコーダー後の音声は正しく聞こえます。