NEUTRINO - NN-based singing synthesizer

NEUTRINO の概要や使い方を紹介しています

NEUTRINO - NN-based singing synthesizer を紹介しているページです

音符(歌メロ)と歌詞を入力するだけで、AI に歌を歌わせることができる!「NEUTRINO」。

NEUTRINO
制作者 SHACHI
対応 -
バージョン 0.200a
更新日時 2020-03-27
ファイルサイズ 862 MB
最新版
過去バージョン
ミラー

NEUTRINO

指定した楽曲を、AI に歌わせることができるニューラルネットワークベースの歌声合成ソフト。
音符(歌メロ)と歌詞を入力するだけで、あたかも人間が歌っているかのような歌声データを WAVE ファイルとして出力することができます。
標準で「東北きりたん」「謡子」の歌声ライブラリが同梱されており、各ライブラリのピッチや声質を調整する機能も付いています。

「NEUTRINO」は、ニューラルネットワークを利用した音声合成ソフトです。
自分が作成した楽曲を、AI(2020/3/12 時点では「東北きりたん」または「謡子」)に歌わせることができる NN ベースの歌声合成ツールで、難しいパラメータ等を細かく調整したりしなくても “ 実際に人間が歌っている ” かのように歌わせることができるところが大きな特徴。

元の MIDI データ(音量注意)


上記データに歌詞を付けて「東北きりたん」に歌わせた例


上記データに歌詞を付けて「謡子」に歌わせた例


東北きりたんx2+謡子
インプットされた音符をただ単に発音するだけではなく、AI が「人間であれば、この譜面(歌)をどのような感じで歌うのか?」ということを推定して歌声の合成を行ってくれるので、あたかも人間が歌っているかのような歌声データに仕上げることができます※1
(歌声データは、WAVE ファイルとして出力される)
1 「人間のように」歌うため、難解な曲は無理した感じになる。
(物凄く早口であるとか、極端な音程差があるとか、休符なしでメロディが続くとか...)

また、歌メロ(MIDI データや MusicXML データ)自体は普段使い慣れたソフトで作成することができるため、新たに作曲ソフトの使い方を覚える必要がなかったりします※2
(ただし、歌詞は「MuseScore」などの MusicXML 対応ソフトで付けることになる)
2 基本的には、上記「MuseScore」を含む何らかのソフトで歌メロ(MIDI ファイル等)を作成 → データを「MuseScore」などに読み込ませて音符に歌詞を付ける → 出来上がったデータを、MusicXML 形式のファイルとしてエクスポートする → MusicXML ファイルを「NEUTRINO」に読み込ませる... という手順を取ることになる。
“ 自分の作った歌を歌ってもらいたい ” という時にはもちろん、文章を読ませる用途等でも使えるかもしれません。
その他、使用する歌声ライブラリ(「東北きりたん」または「謡子」)のピッチや声質を調整する機能も付いています。

使い方は以下のとおり。

歌のメロディを作成する
  1. 最初に、何らかのソフトで歌メロを作成します。
    このページでは、
    1. Domino」で歌メロを作成し、MIDI ファイルとして出力する
    2. 作成した MIDI ファイルを「MuseScore」にインポートし、音符に歌詞を乗せる
    3. 出来上がったデータを MusicXML 形式のファイルとしてエクスポートする
    4. 「NEUTRINO」に MusicXML ファイルを読み込ませて歌声合成を行う
    ... といった手順を取りたいと思います。
  2. まず、歌のメロディを作成します。
    歌のメロディを作成する
    音色は何でも OK ですが、音の伸びが人間の声に近い楽器の方がイメージしやすい?ような気がします。
    (この音符でどこまで息が続くのか?ということをイメージしやすいというか...)
    テンポも重要な要素となるので、テンポもしっかりと設定しておきます。
    テンポも設定する
    歌メロ以外の演奏データを作成しても OK ですが、「NEUTRINO」で音声合成の際に出力されるのは “ 歌 ” のみになります。
    (楽器の演奏も入れたい場合は、歌と別に作って「Audacity」などでミックスするとよい)
  3. 歌メロが出来上がったら、データを MIDI ファイルとして出力します。
    データを MIDI ファイルとして出力する
    データを MIDI ファイルとして出力する
目次へ戻る
歌詞を入力する
  1. 「MuseScore」を起動し、作成した MIDI ファイルを読み込みます。
    「MuseScore」を起動し、作成した MIDI ファイルを読み込む
    作成した MIDI ファイルを読み込む
    MIDI ファイルが読み込まれた
    MIDI ファイルが読み込まれた
    まず、歌詞を乗せたい音符をクリックし、CtrlL キーを押します。
     MuseScore ハンドブック(歌詞)
  2. 選択していた音符の下に、歌詞入力欄が表示されます。
    選択していた音符の下に、歌詞入力欄が表示された
    ここに、選択中の音符に乗せたい歌詞を入力します。
    歌詞を入力する
    この時、書き言葉ではなく話し言葉で入力するように注意します。
    たとえば、「あの時は」という歌詞があったとすると、「あのとき」ではなく「あのとき」と入力します。
     その他注意(公式チュートリアル)
  3. 続いて、方向キーの キーを押すなどし、別の音符を選択 → 歌詞を入力していきます。
    別の音符を選択し、歌詞を入力していく
    別の音符を選択し、歌詞を入力していく
  4. 歌詞の入力が終わったら、メニューバー上の「ファイル」から「エクスポート」を選択します。
    メニューバー上の「ファイル」から「エクスポート」を選択する
  5. 「エクスポート」という画面が表示されるので、下部にある「ファイルの種類」を「非圧縮 MusicXMLファイル (*.musicxml)」にし、適当な名前で保存を行います。
    エクスポート
    「ファイルの種類」を「非圧縮 MusicXMLファイル (*.musicxml)」にし、適当な名前で保存を行う
目次へ戻る
歌声合成を行う
  1. 作成された MusicXML ファイルを、「NEUTRINO」のインストールフォルダ内にある「score\musicxml」フォルダ内にコピーします。
    MusicXML ファイルを、「NEUTRINO」のインストールフォルダ内にある「score\musicxml」フォルダ内にコピーする
  2. 続いて、「NEUTRINO」のインストールフォルダ内にある「Run.bat」を、メモ帳などの テキストエディタ で開きます。
  3. 6 行目にある
    set BASENAME=sample1
    の「sample1」の部分を、「MuseScore」で作成した MusicXML ファイルの名前に書き換えます。
    (拡張子は除く)
    「set BASENAME=sample1」の「sample1」の部分を書き換える
    たとえば、作成したファイルが「test.musicxml」という名前であったとすると、
    set BASENAME=test
    のように記述します。
    書き換え例
  4. 次に、13 行目にある
    set ModelDir=KIRITAN
    の部分で、使用する歌声ライブラリを指定します。
    「set ModelDir=KIRITAN」の「KIRITAN」の部分を書き換える
    「東北きりたん」を使う場合は「KIRITAN」、「謡子」を使う場合は「YOKO」と記述します。
  5. その他、16 行目や 17 行目でピッチや声質を調整することもできますが、この辺についてはとりあえず音声合成を行ってから調整してもよいと思います。
  6. 「Run.bat」の編集が終わったら、CtrlS キーを押すなどとしてファイルを上書き保存します。
    (テキストエディタは閉じてしまって OK です)
  7. 最後に、「Run.bat」をダブルクリックして実行します。
    「Run.bat」をダブルクリックして実行する
  8. コマンドプロンプトが立ち上がり、音声合成処理が行われます。
    コマンドプロンプトが立ち上がり、音声合成処理が行われる
    これにはそこそこ時間がかかる場合があるので、余裕をもって待ちます。
  9. しばらく待ち、コマンドプロンプトが消えたら処理完了です。
    「NEUTRINO」のインストールフォルダ内にある「output」フォルダ内に、WAVE ファイルが作成されています。
    コマンドプロンプトが立ち上がり、音声合成処理が行われる
    この WAVE ファイルの内容を確認し、おかしいところがあれば(音符の長さとか配置、休符の有無等)、作曲ソフトで微調整を行う → 再度 MusicXML ファイルを書き出して歌声合成を行う... という手順を取っていきます。
     AIシンガー調声アイデア NEUTRINOで使えるテクニック
    ちなみに、先述の通り「Run.bat」の 16 行目にある
    set PitchShift=1.0
    の部分でピッチを、17 行目にある
    set FormantShift=1.0
    の部分で声質を調整できるようになっています。
    「set PitchShift=」の部分で声高を調整することができる
    「set FormantShift=」の部分で声質を調整することができる
    基本的には、どちらも小さくすれば低くなり、大きくすれば高くなります。
    (0.85 ~ 1.15 辺りがお勧めのようです)

NEUTRINO TOPへ

NEUTRINO - NN-based singing synthesizer を紹介しているページです