AIが歌う! Two Minute Papers #230
目次
- 🤖 ボコーダーとは?
- 🎵 ミディと歌詞について
- 🎶 ボコーダーによる歌声生成
- 📊 モデルの構造
- ⌛️ リアルタイム性と学習データ
- 📝 メディアでの使用性向上への一歩
- 🎹 ミディ入力の作成方法
- 🎶 歌詞の作成方法
- 💡 使いやすい音声合成ツール
- 💰 パトレオンでの支援
🤖 ボコーダーとは?
ボコーダーとは、AIボコーダーを構築することに関する研究です。このAIボコーダーは、MIDIと歌詞を入力として受け取り、信じられるほどの歌声を合成することができます。ボコーダーとは一体何でしょうか?以下で説明します。
🎵 ミディと歌詞について
MIDIとは、音の高さ、長さ、音の強さなどのデータを含むフォーマットです。MIDIは楽曲のスコアを表現するためのデータであり、ボコーダーにとって重要な入力です。一方、歌詞は合成される歌声の内容を示すシンプルなテキストファイルです。
🎶 ボコーダーによる歌声生成
ボコーダーは、歌声のピッチと音色の部分を分離することができます。このため、波形は直接生成されるのではなく、ボコーダーが生成するのです。Google DeepMindのWaveNetとは異なり、このアプローチには2つの大きな利点があります。
- 生成時間が有利であること。
- モデルの学習に必要なデータ量が比較的小さいこと。
ボコーダーは、与えられた音声データをもとにスコアを生成するアルゴリズムです。このアルゴリズムについては後ほど詳しく説明しますが、まずはその成果物を聴いてみましょう。素晴らしいですね!
【聞いてみよう】
(音声データのリンク)
📊 モデルの構造
ボコーダーのモデルは、改良されたWaveNetアーキテクチャを使用しています。このアーキテクチャでは、2×1のダイレーション畳み込みが使用されます。つまり、各層でダイレーション係数が倍増し、モデルの受容野が指数関数的に増加します。これにより、パラメータの数を効果的に減らすことができ、小規模なデータセットでのモデルの学習が可能になります。
⌛️ リアルタイム性と学習データ
ボコーダーのリアルタイム性について説明します。残念ながら、リアルタイムではありません。実際には、リアルタイムの10〜15倍の時間がかかります。しかしながら、このボコーダーは、他の歌声生成手法に比べて学習データ量が少なくて済むのです。これにより、手軽にモデルの学習が行えるようになりました。
過去のエピソードでご紹介した「平均意見スコア」を利用して、この新しい手法の評価を行いました。その結果、この手法は他の手法と比べて非常に優れており、参照となる歌声と前の作品との中間に位置しています。論文中ではさまざまなテスト結果が報告されていますので、ぜひご覧ください。
📝 メディアでの使用性向上への一歩
この研究は、デジタルメディアで使いやすく、リアルタイムよりも高速な歌声合成を実現するための重要な一歩です。MIDI入力は、MIDIマスターキーボードを使用するか、デジタルオーディオワークステーションプログラムで手書きすることで簡単に生成できます。歌詞の作成も同様に簡単で、追加のソフトウェアは必要ありません。こうしたツールの登場により、誰でも簡単に歌声合成を行うことができるようになるでしょう。
🎹 ミディ入力の作成方法
ミディ入力の作成方法についてご説明します。MIDIマスターキーボードを使用すると、簡単にミディ入力を作成することができます。また、デジタルオーディオワークステーションプログラムを使用して、手書きでミディ入力を作成することもできます。
🎶 歌詞の作成方法
歌詞の作成方法は非常にシンプルです。追加のソフトウェアは必要ありません。ボコーダーに合成したい歌詞を簡単なテキストファイルとして作成するだけです。
💡 使いやすい音声合成ツール
これらのツールの登場により、誰でも簡単に歌声合成を行うことができるようになりました。使いやすい音声合成ツールが増えることで、より多くの人々が音楽制作に参加できるようになるでしょう。非常に魅力的ですね!
💰 パトレオンでの支援
私たちがより詳細な動画を作成するために、ぜひPatreonでの支援をご検討ください。Bitcoin、Ethereum、Litecoinなどの仮想通貨を使った一回性の支援もサポートしています。詳細は動画の説明欄をご覧ください。
視聴とご寄付、本当にありがとうございました!次回もお会いしましょう!