AIが歌う！ Two Minute Papers #230

Find AI Tools in second

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News JP AIが歌う！ Two Minute Papers #230

Updated on Feb 26,2024

AIが歌う！ Two Minute Papers #230

🤖 ボコーダーとは？
🎵 ミディと歌詞について
🎶 ボコーダーによる歌声生成
📊 モデルの構造
⌛️ リアルタイム性と学習データ
📝 メディアでの使用性向上への一歩
🎹 ミディ入力の作成方法
🎶 歌詞の作成方法
💡 使いやすい音声合成ツール
💰 パトレオンでの支援

🤖 ボコーダーとは？

ボコーダーとは、AIボコーダーを構築することに関する研究です。このAIボコーダーは、MIDIと歌詞を入力として受け取り、信じられるほどの歌声を合成することができます。ボコーダーとは一体何でしょうか？以下で説明します。

🎵 ミディと歌詞について

MIDIとは、音の高さ、長さ、音の強さなどのデータを含むフォーマットです。MIDIは楽曲のスコアを表現するためのデータであり、ボコーダーにとって重要な入力です。一方、歌詞は合成される歌声の内容を示すシンプルなテキストファイルです。

🎶 ボコーダーによる歌声生成

ボコーダーは、歌声のピッチと音色の部分を分離することができます。このため、波形は直接生成されるのではなく、ボコーダーが生成するのです。Google DeepMindのWaveNetとは異なり、このアプローチには2つの大きな利点があります。

生成時間が有利であること。
モデルの学習に必要なデータ量が比較的小さいこと。

ボコーダーは、与えられた音声データをもとにスコアを生成するアルゴリズムです。このアルゴリズムについては後ほど詳しく説明しますが、まずはその成果物を聴いてみましょう。素晴らしいですね！

【聞いてみよう】 (音声データのリンク)

📊 モデルの構造

ボコーダーのモデルは、改良されたWaveNetアーキテクチャを使用しています。このアーキテクチャでは、2×1のダイレーション畳み込みが使用されます。つまり、各層でダイレーション係数が倍増し、モデルの受容野が指数関数的に増加します。これにより、パラメータの数を効果的に減らすことができ、小規模なデータセットでのモデルの学習が可能になります。

⌛️ リアルタイム性と学習データ

ボコーダーのリアルタイム性について説明します。残念ながら、リアルタイムではありません。実際には、リアルタイムの10〜15倍の時間がかかります。しかしながら、このボコーダーは、他の歌声生成手法に比べて学習データ量が少なくて済むのです。これにより、手軽にモデルの学習が行えるようになりました。

過去のエピソードでご紹介した「平均意見スコア」を利用して、この新しい手法の評価を行いました。その結果、この手法は他の手法と比べて非常に優れており、参照となる歌声と前の作品との中間に位置しています。論文中ではさまざまなテスト結果が報告されていますので、ぜひご覧ください。

📝 メディアでの使用性向上への一歩

この研究は、デジタルメディアで使いやすく、リアルタイムよりも高速な歌声合成を実現するための重要な一歩です。MIDI入力は、MIDIマスターキーボードを使用するか、デジタルオーディオワークステーションプログラムで手書きすることで簡単に生成できます。歌詞の作成も同様に簡単で、追加のソフトウェアは必要ありません。こうしたツールの登場により、誰でも簡単に歌声合成を行うことができるようになるでしょう。