制作側がVRChatでのボイチェンを推してる？ボイスチェンジャー「Supertone Shift」の使い方

アバターで姿が変わっても、声が似合うものにならないと思ったことありませんか？

もちろん地声でそのまま喋り続けて、慣れたり、味にしていったりするのもいいでしょう。またトレーニングを重ねて似合うものを目指すのも良いでしょう。

ですが、声を変えるのは限界があり、変えるための努力を誰もができるわけではありません。

そこで今回紹介したいのは、ボイスチェンジャーのソフト「Supertone Shift」です。特徴的なのが、用意されたプリセットを自分との声をどの程度ブレンドするか調整できる点。

このソフトは制作側がVRChatでの使用を推しており、アンバサダーでもVRChatユーザーが任命されるなど注目していることが分かります。

なぜVRChatに注目しているのか、担当者にもコメントをもらうこともできたので、使い方を含めて見ていきましょう。

1 「Supertone Shift」の特徴
2 導入方法
- 2.1 ボイスの調整画面
3 なぜVRChatのユーザーを勧めているの？

「Supertone Shift」の特徴

「Supertone Shift」はAIボイスチェンジャーのソフトです。制作しているSupertoneは、韓国の会社HYBEの子会社です。AIの学習データについては、今回担当者から以下の回答を受け取っています。

担当者からの回答

1. 学習データの収集方法と選定基準はどのように行っているのか
(1)Enrollment(音声学習)で収集される約10秒間の音声データだけで、希望の声を実現
*Enrollment : AIモデルにユーザーの声の特徴を事前に知らせるプロセス
(2)Supertoneの独自に開発した音声合成基盤モデル『NANSY（Neural Analysis And Synthesis）』を使用して、声色、発音、ピッチ、アクセントなどの4つの音声要素を分離し、再合成することで高品質な音声を生成
(3)学習された音声データに基づいて、NANSYを通じて声の高さや構成要素を調整し、希望する声をリアルタイムでデザイン

2. 学習データのプライバシー保護対策について
個人情報保護方針（筆者注：英語ページ）を基にしております。

3. AIモデルの安全性確保のための取り組み
弊社ではAI音声であることを検出する技術を開発することでセキュリティ対策に取り組んでおりますが、サービスに導入される日程はまだ決まっておりません。
Supertoneの技術で生成された音声が不適切に使用された場合に、この音声の透かし技術を使って、追跡ができることを目指しております。

また企業のページ（韓国語・英語のみ）ではAIの取り扱いについてページが掲載されているため、気になる方はそちらもご覧ください。

それでは、VRChatでの使用感を交えながら、「Supertone Shift」の特徴を紹介していきましょう。

まずは超低遅延での変換。遅延時間は約47msで、VRChatを想定するなら遅延はボイスチェンジャーよりも通信回線側を疑ったほうがいいかもしれないという快適さです。

次に挙げるのは、使用するまでのハードルの低さ。子供っぽい声、カワイイ声、セクシーな声といった方向性が決まっているプリセットから、パラメータを微調整することで、最初から完成度の高い状態にできます。プリセットも複数用意されているので、アバターごとにプリセットを変えることも、現実的です。

また変換で活用するのはCPUとなっています。パフォーマンスに影響がある場合はCPUの稼働率を確認しましょう。

導入方法

サイトの商品ページからダウンロードをしてください。その後セットアップの指示に従って、「Supertone Shift」をインストールしましょう。

初回起動時には、アカウントの確認が求められます。アカウントを作成もしくは、Googleアカウントと連携してください。

「Supertone Shift」は14日間の無料トライアルが新規登録時に開始します。トライアル終了後は一部のプリセットボイスのみ使用可能となります。

無料のプリセットボイス以外を使用するには、1回払いのソフトライセンスと1ボイスごとのサブスクリプションが必要です。ソフトライセンスは、10月23日まで行われているオープンベータテスト期間中は、49ドルのところ29ドルの割引価格で購入できます。サブスクリプションは、1ボイスごとに月額9ドルです。

公式ページはこちら！

次に、音声登録が求められます。普段使用するマイクを選択し、表示される文章を読んでください。音声変換の参考に使われます。

ボイスの調整画面

初期設定が終わると、ボイスの調整画面が開きます。次回起動時は、この画面が表示されます。まずは、プリセットを選択しましょう。

プリセットを選択したら、右上のグリッド状のボタンを押すと、調整画面のみになります。調整画面下部にある「Voice Check」と「Record」では、ループバック再生と録音機能を使ってボイスチェックができます。

画面下部にあるパラメータで、音声の微調整ができます。各項目の説明は以下の通りです。パラメータをリセットしたい場合は、Windowsなら「Ctrl」キーを押しながらクリック、Macなら「CMD」キーを押しながらクリックします。

パラメータ（Supertone Shift ユーザーガイド (JP)より引用）

Volume : 各ボイスの音量出力値を調整することができます。
Blend : ユーザーの声と選択した声の合成比率を調整することができます。100に近いほど選択した声に、0に近いほどユーザーの生声に近くなります。
Pitch : 選択した声の高さを調整します。値が高いほど声が高くなり、低いほど声が低くなります。
Joy : イントネーションの強弱を調整します。例えば、Joyを「0.00」に設定すると、イントネーションを強く発声しても一定の声の高さに変換されます。逆にJoyを「2.00」に設定すると、実際の発声よりも強いアクセントで声が変換されます。
Reverb : Reverbの値が大きいほど残響感が最大化されます。イメージするシーンに合わせてReverbの値を調整してみてください。
Octave : 入力音声の音程を正確に反映するので、歌を歌う時に使ってください。PitchをクリックするとOctaveに変換できます。

VRChatで使用する場合は、VRChatのマイク設定を「Shift Mic Input」に変更してください。Discordなどの他のサービスでも、マイクの出力元を切り替えることで使用できます。

なぜVRChatのユーザーを勧めているの？

最後に、「Supertone Shift」のターゲットになぜVRChatユーザーも含めているのか、開発元のコメントをいただきました。

Supertone Shiftは「自分だけの声で、別の自分へ」というスローガンを基に、ユーザーが自分だけの声を見つけ、それを通じて自分自身を表現できるようサポートしています。最近、Vtuberやメタバースプラットフォームの急成長に伴い、VRChatなどで過ごす時間が増え、ボイスチェンジャーの重要性が高まっています。依然として多くの人たちが音声表現に苦労しています。

Supertone Shiftは、この制約を打破できるソリューションであり、特に女声から男声への高精度な変換において注目されています。Supertone Shiftを通じて、より多くの人々が自分だけの新しい声を見つけ、自由に自分自身を表現できることを目指しています。

アバターを変えるのと同じように、声も変えてみるのも面白いかもしれません。導入のハードルはかなり低いので、気になる人はさわってみてはいかがでしょうか。

「Supertone Shift」を使いたい人はこちら！