ailia Voice

はじめに

プラットフォームを選び、最初の音声合成を実行してみましょう。

インストール

ailia Voice と、サンプルで使う librosa / soundfile をインストールします。

pip3 install ailia_voice librosa soundfile

PyPI で見る

サンプルを実行

ailia-models から example_ailia_voice.py をダウンロードして実行します。短いリファレンス音声から声をクローンし、output.wav を書き出します。モデルは ./models/ に自動ダウンロードされます。

wget https://raw.githubusercontent.com/ailia-ai/ailia-models/master/audio_processing/gpt-sovits/example_ailia_voice.py
python3 example_ailia_voice.py

example_ailia_voice.py

評価版を入手

無料トライアルに申し込むと、C++ バインディング (ailia_voice.h)、ランタイムライブラリ、ライセンスファイル、実行可能サンプルを含む評価版パッケージを入手できます。

無料トライアルを申し込む

モデルをダウンロードして実行

同梱のモデルダウンロードスクリプトを実行し、サンプルをビルドして実行します。

# Fetch GPT-SoVITS / Tacotron2 model files
cd onnx
bash download_models.sh   # download_models.bat on Windows
cd ../cpp

# Build (macOS)
clang++ -o ailia_voice_sample ailia_voice_sample.cpp \
  wave_writer.cpp wave_reader.cpp \
  libailia_voice.dylib libailia.dylib libailia_audio.dylib \
  -Wl,-rpath,./ -std=c++17

./ailia_voice_sample gpt-sovits

C++ セットアップガイド

UPM でインストール

Unity (2021.3.10f1 以降) で Window > Package Manager を開き、+ > Add package from git URL をクリックして下記のバインディング URL を入力します。

https://github.com/ailia-ai/ailia-voice-unity.git

Unity API リファレンス

サンプルを実行

ailia-models-unity をクローンして Unity Editor (2021.3.10f1 以降) で開き、リファレンス音声と読み上げテキストを設定して TextToSpeech シーンを Play してください。

git clone https://github.com/ailia-ai/ailia-models-unity.git

AiliaVoiceSample.cs

pubspec に追加

Flutter プロジェクトの pubspec.yaml に ailia Voice を git 依存として追加し、flutter pub get を実行します。Flutter 3.19.6 以降が必要です。macOS では macos/Runner/Release.entitlements と Debug.entitlements の com.apple.security.app-sandbox を false に設定してください。

dependencies:
  ailia_voice:
    git:
      url: https://github.com/ailia-ai/ailia-voice-flutter.git
      ref: main

Flutter API リファレンス

サンプルを実行

GPT-SoVITS の合成サンプルアプリは Flutter サンプルリポジトリにあります。クローンしてそのまま実行できます。

git clone https://github.com/ailia-ai/ailia-models-flutter.git
cd ailia-models-flutter
flutter pub get
flutter run

サンプルリポジトリ

機能

C / C# / Python API で利用できる音声合成機能。

TTS モデル

Tacotron2 — 高速な英語ベースライン
GPT-SoVITS v1 / v2 / v2-pro / v3

ボイスクローン

10 秒程度のリファレンス音声から任意の声を再現
リファレンス音声と書き起こしテキストのペアで指定
話者照合の埋め込み (v2-pro)

多言語対応

日本語アクセント対応 (v2 以降)
日本語音素変換に OpenJtalk を内蔵
中国語に g2pw + jieba を採用 (v2 以降)

カスタマイズ

ユーザー辞書 (pyopenjtalk 形式)
v3 用標準ユーザー辞書をダウンロード可能
再生速度コントロール (v2 以降)

プロジェクトで API を使う

自分のアプリケーションで音声を合成する最小サンプル。

import ailia_voice

voice = ailia_voice.GPTSoVITS()
voice.initialize_model(model_path="./models/")
voice.set_reference_audio(
    ref_text, ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA, ref_audio, rate,
)
buf, sr = voice.synthesize_voice("こんにちは。", ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA)

#include "ailia_voice.h"

struct AILIAVoice *voice = nullptr;
ailiaVoiceCreate(&voice, env_id, AILIA_VOICE_FLAG_NONE);
ailiaVoiceOpenModelFileGPTSoVITSV1A(voice,
    t2s_encoder, t2s_fsdec, t2s_sdec, vits, cnhubert);

ailiaVoiceSetReferenceA(voice, ref_pcm, ref_samples, channels, rate,
                        ref_text, AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
ailiaVoiceInferenceA(voice, "こんにちは。",
                     AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);

unsigned int n; ailiaVoiceGetWaveSamples(voice, &n);
ailiaVoiceDestroy(voice);

using ailiaVoice;

var voice = new AiliaVoiceModel();
voice.Create(voice.GetEnvironmentId(gpuMode), AiliaVoice.AILIA_VOICE_FLAG_NONE);
voice.OpenGPTSoVITSV1ModelFile(t2sEnc, t2sFsdec, t2sSdec, vits, cnhubert);

var refText = voice.G2P(refLabel, AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
voice.SetReference(refClip, refText);

var text = voice.G2P("こんにちは。", AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
voice.Inference(text);
AudioClip clip = voice.GetAudioClip();

import 'package:ailia_voice/ailia_voice.dart';

final voice = AiliaVoiceModel();
await voice.create();
await voice.openGPTSoVITSV1ModelFile(t2sEnc, t2sFsdec, t2sSdec, vits, cnhubert);

await voice.setReference(refClip, refText);
final pcm = await voice.synthesize('こんにちは。',
    g2pType: AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);

val voice = AiliaVoice(envId = envId)
voice.openGPTSoVITSV1ModelFile(t2sEnc, t2sFsdec, t2sSdec, vits, cnhubert)
voice.setReferenceAudio(refAudio, refAudio.size * 4, channels, sampleRate, refG2pText)

val g2p = voice.g2p("こんにちは。", AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA)
val audio = voice.synthesizeVoice(g2p)

よくある質問

ailia Voice についてのよくある質問。

対応している TTS モデルは?

2 系統あります: Tacotron2 (英語のベースライン) と GPT-SoVITS (ゼロショットボイスクローン)。

GPT-SoVITS には v1 / v2 / v2-pro / v3 の 4 バージョンがあり、それぞれに日本語・英語・中国語の派生があります。CLI 引数 (tacotron2 / gpt-sovits / gpt-sovits-v2-en など) でサンプルを選択します。

GPT-SoVITS のバージョンはどれを使うべきですか?

v1: 最も軽量・高速。日本語アクセント非対応。
v2: 日本語のピッチ・アクセントと再生速度コントロールを追加。リアルタイム用途のデフォルトに適します。
v3: CFM + DiT + BigVGAN ディフュージョンによる最高音質。やや低速。
v2-pro: v3 のテキスト解析 + v2 の高速ボコーダ + 話者照合埋め込みを組み合わせた構成。品質と速度のバランス重視ならこれが推奨です。

「リファレンス音声」とは何で、なぜ必要なのですか?

GPT-SoVITS は約 10 秒の高品質なリファレンス音声と、その書き起こしテキストの組から話者の声の特徴を再現します。synthesize_voice() を呼ぶ前に両方を set_reference_audio() へ渡してください。

Tacotron2 はリファレンス音声を必要とせず、固定の声で読み上げます。

独自の発音辞書を作成するには?

ailia Voice は日本語の音素変換に OpenJtalk を内蔵しています。発音を上書きするには、MeCab 形式の userdic.csv を用意し (末尾の 0/5 は 5 モーラ・アクセント位置 0 を表します)、pyopenjtalk でバイナリ .dic に変換します:

import pyopenjtalk
pyopenjtalk.mecab_dict_index("userdic.csv", "userdic.dic")

その後、Python では initialize_model() に user_dict_path を渡し、C では ailiaVoiceSetUserDictionary を呼び出します。v3 用の標準ユーザー辞書も利用できます。

合成できる言語は?

日本語・英語・中国語に対応しており、set_reference_audio() と synthesize_voice() に渡す AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA / _EN / _ZH 定数で切り替えます。

C++ で使うとき、ライセンスファイルはどこに置きますか?

C++ バインディングはランタイムライブラリと同じ場所に ailia.lic を配置する必要があります:

Windows: ailia.dll と同じフォルダ (サンプルでは cpp/ 配下)。
macOS: ~/Library/SHALO/
Linux: ~/.shalo/

Python / Unity / Flutter / JNI バインディングは初回実行時にライセンスを自動ダウンロードするため、この手順は C++ バインディングに限ります。

GPU 推論を有効にするには?

macOS / iOS では Metal が自動的に使用されます。Windows / Linux では CUDA Toolkit と cuDNN をインストールし、cuDNN を PATH に追加してください。

オフラインで動作しますか?

初回実行後はオフラインで動作します。モデルの重みは初回に initialize_model(model_path=...) へ指定したディレクトリにダウンロードされ、評価ライセンスも自動取得されます。以降はネット接続不要です。

ライセンスはどう扱われますか?

評価ライセンスは実行時に自動でダウンロードされ、開発・評価用途に利用できます。商用配布には製品ライセンスを申請してください。詳細は ailia ライセンス規約を参照してください。

はじめに

インストール

サンプルを実行

評価版を入手

モデルをダウンロードして実行

UPM でインストール

サンプルを実行

pubspec に追加

サンプルを実行

動作環境

対応 OS

言語とコンパイラ

対応モデル

対応言語

機能

TTS モデル

ボイスクローン

多言語対応

カスタマイズ

プロジェクトで API を使う

プラットフォーム別 API リファレンス

Python

C++

Unity

Flutter

JNI

よくある質問

資料