ailia Voice

はじめに

プラットフォームを選び、最初の音声合成を実行してみましょう。

インストール

ailia Voice と、サンプルで使う librosa / soundfile をインストールします。

pip3 install ailia_voice librosa soundfile

Python や git をまだインストールしていない方は、Python 環境のセットアップ（Windows / Mac / Linux）を先にご覧ください。

PyPI で見る

サンプルを実行

ailia-models から example_ailia_voice.py をダウンロードして実行します。短いリファレンス音声から声をクローンし、output.wav を書き出します。モデルは ./models/ に自動ダウンロードされます。

wget https://raw.githubusercontent.com/ailia-ai/ailia-models/master/audio_processing/gpt-sovits/example_ailia_voice.py
python3 example_ailia_voice.py

Windows の場合は python3 の代わりに python を使用してください。

example_ailia_voice.py

サンプルをクローン

C++ サンプルリポジトリをクローンしてサブモジュールを初期化します。ailia-sdk-cpp バインディングはサブモジュールとして含まれています。

git clone https://github.com/ailia-ai/ailia-models-cpp.git
cd ailia-models-cpp
git submodule init
git submodule update

macOS の場合のみ、dylib の quarantine 属性を解除します。

./xattr.sh

サンプルリポジトリ gpt-sovits-v2-pro サンプル

ビルドして実行

1 か月の評価ライセンスを取得し、CMake と OpenCV をインストールしてビルド、GPT-SoVITS v2 Pro サンプルを実行します。gpt-sovits-v2-pro.sh がモデル ONNX と辞書ファイルを自動でダウンロードしてから推論を行います。

# 評価ライセンスを取得
cd ailia
python3 download_license.py
cd ..

# macOS
brew install cmake
# Linux: apt install cmake
# Windows: install CMake and Visual Studio

cmake -DWITH_OPENCV=OFF .
cmake --build .
cd audio_processing/gpt-sovits-v2-pro
./gpt-sovits-v2-pro.sh    # use gpt-sovits-v2-pro.bat on Windows

C++ セットアップガイド

UPM でインストール

Unity (2021.3.10f1 以降) で Window > Package Manager を開き、+ > Add package from git URL をクリックして下記のバインディング URL を入力します。

https://github.com/ailia-ai/ailia-sdk-unity.git
https://github.com/ailia-ai/ailia-audio-unity.git
https://github.com/ailia-ai/ailia-voice-unity.git

Unity API リファレンス

サンプルを実行

ailia-models-unity をクローンして Unity Editor (2021.3.10f1 以降) で開き、リファレンス音声と読み上げテキストを設定して TextToSpeech シーンを Play してください。

git clone https://github.com/ailia-ai/ailia-models-unity.git

AiliaVoiceSample.cs

pubspec に追加

Flutter プロジェクトの pubspec.yaml に ailia Voice を git 依存として追加し、flutter pub get を実行します。Flutter 3.19.6 以降が必要です。macOS では macos/Runner/Release.entitlements と Debug.entitlements の com.apple.security.app-sandbox を false に設定してください。

dependencies:
  ailia_sdk:
    git:
      url: https://github.com/ailia-ai/ailia-sdk-flutter.git
      ref: main
  ailia_audio:
    git:
      url: https://github.com/ailia-ai/ailia-audio-flutter.git
      ref: main
  ailia_voice:
    git:
      url: https://github.com/ailia-ai/ailia-voice-flutter.git
      ref: main

Flutter API リファレンス

サンプルを実行

GPT-SoVITS の合成サンプルアプリは Flutter サンプルリポジトリにあります。クローンしてそのまま実行できます。

git clone https://github.com/ailia-ai/ailia-models-flutter.git
cd ailia-models-flutter
flutter pub get
flutter run

サンプルリポジトリ text_to_speech.dart

バインディングをクローン

自分のプロジェクトに組み込む場合は、JNI バインディングリポジトリをクローンして Android Studio プロジェクトに追加します。

git clone https://github.com/ailia-ai/ailia-sdk-jni.git
git clone https://github.com/ailia-ai/ailia-audio-jni.git
git clone https://github.com/ailia-ai/ailia-voice-jni.git

バインディング

サンプルを実行

ailia-models-kotlin をサブモジュール込みでクローンして Android Studio で開き、接続デバイス上で Voice サンプルを実行します。GPT-SoVITS の合成と再生が含まれています。

git clone https://github.com/ailia-ai/ailia-models-kotlin.git
cd ailia-models-kotlin
git submodule update --init --recursive

AiliaVoiceSample.kt

機能

C / C# / Python API で利用できる音声合成機能。

TTS モデル

Tacotron2 — 高速な英語ベースライン
GPT-SoVITS v1 / v2 / v2-pro / v3

ボイスクローン

10 秒程度のリファレンス音声から任意の声を再現
リファレンス音声と書き起こしテキストのペアで指定
話者照合の埋め込み (v2-pro)

多言語対応

日本語アクセント対応 (v2 以降)
日本語音素変換に OpenJtalk を内蔵
中国語に g2pw + jieba を採用 (v2 以降)

カスタマイズ

ユーザー辞書 (pyopenjtalk 形式)
v3 用標準ユーザー辞書をダウンロード可能
再生速度コントロール (v2 以降)

プロジェクトで API を使う

自分のアプリケーションで音声を合成する最小サンプル。

import ailia_voice
import librosa
import urllib.request

# リファレンス音声をロード
ref_text = "水をマレーシアから買わなくてはならない。"
urllib.request.urlretrieve(
    "https://github.com/ailia-ai/ailia-models/raw/master/audio_processing/gpt-sovits/reference_audio_captured_by_ax.wav",
    "reference_audio_girl.wav",
)
ref_audio, rate = librosa.load("reference_audio_girl.wav", mono=True)

# 推論
voice = ailia_voice.GPTSoVITS()
voice.initialize_model(model_path="./models/")
voice.set_reference_audio(
    ref_text, ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA, ref_audio, rate,
)
buf, sr = voice.synthesize_voice("こんにちは。", ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA)

#include "ailia_voice.h"
#include <vector>

struct AILIAVoice *voice = nullptr;
ailiaVoiceCreate(&voice, env_id, AILIA_VOICE_FLAG_NONE);
ailiaVoiceOpenModelFileGPTSoVITSV1A(voice,
    t2s_encoder, t2s_fsdec, t2s_sdec, vits, cnhubert);

// Reference audio: G2P → fetch phoneme features → SetReference
ailiaVoiceGraphemeToPhoneme(voice,
    "水をマレーシアから買わなくてはならない。",
    AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
unsigned int ref_len = 0;
ailiaVoiceGetFeatureLength(voice, &ref_len);
std::vector<char> ref_features(ref_len);
ailiaVoiceGetFeatures(voice, ref_features.data(), ref_len);
ailiaVoiceSetReference(voice, ref_pcm, ref_pcm_bytes, channels, rate,
                       ref_features.data());

// Input text: G2P → fetch phoneme features → Inference
ailiaVoiceGraphemeToPhoneme(voice, "こんにちは。", AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
unsigned int len = 0;
ailiaVoiceGetFeatureLength(voice, &len);
std::vector<char> features(len);
ailiaVoiceGetFeatures(voice, features.data(), len);
ailiaVoiceInference(voice, features.data());

unsigned int n; ailiaVoiceGetWaveSamples(voice, &n);
ailiaVoiceDestroy(voice);

using ailiaVoice;

var voice = new AiliaVoiceModel();
voice.Create(voice.GetEnvironmentId(gpuMode), AiliaVoice.AILIA_VOICE_FLAG_NONE);
voice.OpenGPTSoVITSV1ModelFile(t2sEnc, t2sFsdec, t2sSdec, vits, cnhubert);

var refText = voice.G2P(
    "水をマレーシアから買わなくてはならない。",
    AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
voice.SetReference(refClip, refText);

var text = voice.G2P("こんにちは。", AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
voice.Inference(text);
AudioClip clip = voice.GetAudioClip();

import 'package:ailia_voice/ailia_voice.dart' as ailia_voice;
import 'package:ailia_voice/ailia_voice_model.dart';

final voice = AiliaVoiceModel();
voice.openModel(
    encoderFile, decoderFile, postnetFile, waveglowFile, sslFile,
    ailia_voice.AILIA_VOICE_MODEL_TYPE_GPT_SOVITS,
    ailia_voice.AILIA_VOICE_CLEANER_TYPE_BASIC,
    ailia_voice.AILIA_ENVIRONMENT_ID_AUTO);
voice.openDictionary(openJtalkDicFolder,
    ailia_voice.AILIA_VOICE_DICTIONARY_TYPE_OPEN_JTALK);

// Reference audio: G2P → setReference
final refFeature = voice.g2p(
    "水をマレーシアから買わなくてはならない。",
    ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
voice.setReference(refPcm, refSampleRate, refChannels, refFeature);

// Input text: G2P → inference
final feature = voice.g2p("こんにちは。",
    ailia_voice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA);
final audio = voice.inference(feature);

voice.close();

val voice = AiliaVoice(envId = -1)
voice.openDictionaryFile(dicDir, AiliaVoice.AILIA_VOICE_DICTIONARY_TYPE_OPEN_JTALK)
voice.openGPTSoVITSV1ModelFile(
    encoder = t2sEnc,
    decoder1 = t2sFsdec,
    decoder2 = t2sSdec,
    wave = vits,
    ssl = cnhubert,
)

// Reference audio: G2P → setReferenceAudio
val refFeature = voice.g2p(
    "水をマレーシアから買わなくてはならない。",
    AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA,
)
voice.setReferenceAudio(refAudio, refAudio.size * 4, channels, sampleRate, refFeature)

// Synthesize
val feature = voice.g2p("こんにちは。", AiliaVoice.AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA)
val result = voice.synthesizeVoice(feature)

よくある質問

ailia Voice についてのよくある質問。

対応している TTS モデルは?

2 系統あります: Tacotron2 (英語のベースライン) と GPT-SoVITS (ゼロショットボイスクローン)。

GPT-SoVITS には v1 / v2 / v2-pro / v3 の 4 バージョンがあり、それぞれに日本語・英語・中国語の派生があります。CLI 引数 (tacotron2 / gpt-sovits / gpt-sovits-v2-en など) でサンプルを選択します。

GPT-SoVITS のバージョンはどれを使うべきですか?

v1: 最も軽量・高速。日本語アクセント非対応。
v2: 日本語のピッチ・アクセントと再生速度コントロールを追加。リアルタイム用途のデフォルトに適します。
v3: CFM + DiT + BigVGAN ディフュージョンによる最高音質。やや低速。
v2-pro: v3 のテキスト解析 + v2 の高速ボコーダ + 話者照合埋め込みを組み合わせた構成。品質と速度のバランス重視ならこれが推奨です。

「リファレンス音声」とは何で、なぜ必要なのですか?

GPT-SoVITS は約 10 秒の高品質なリファレンス音声と、その書き起こしテキストの組から話者の声の特徴を再現します。synthesize_voice() を呼ぶ前に両方を set_reference_audio() へ渡してください。

Tacotron2 はリファレンス音声を必要とせず、固定の声で読み上げます。

独自の発音辞書を作成するには?

ailia Voice は日本語の音素変換に OpenJtalk を内蔵しています。発音を上書きするには、MeCab 形式の userdic.csv を用意し (末尾の 0/5 は 5 モーラ・アクセント位置 0 を表します)、pyopenjtalk でバイナリ .dic に変換します。

import pyopenjtalk
pyopenjtalk.mecab_dict_index("userdic.csv", "userdic.dic")

その後、Python では initialize_model() に user_dict_path を渡し、C では ailiaVoiceSetUserDictionary を呼び出します。v3 用の標準ユーザー辞書も利用できます。

合成できる言語は?

日本語・英語・中国語に対応しており、set_reference_audio() と synthesize_voice() に渡す AILIA_VOICE_G2P_TYPE_GPT_SOVITS_JA / _EN / _ZH 定数で切り替えます。

C++ で使うとき、ライセンスファイルはどこに置きますか?

C++ バインディングはランタイムライブラリと同じ場所に ailia.lic を配置する必要があります。

Windows: ailia.dll と同じフォルダ (サンプルでは cpp/ 配下)。
macOS: ~/Library/SHALO/
Linux: ~/.shalo/

Python / Unity / Flutter / JNI バインディングは初回実行時にライセンスを自動ダウンロードするため、この手順は C++ バインディングに限ります。

GPU 推論を有効にするには?

macOS / iOS では Metal が自動的に使用されます。Windows / Linux では CUDA Toolkit と cuDNN のインストールが必要です。詳しい手順は CUDA Toolkit / cuDNN インストールガイドを参照してください。

オフラインで動作しますか?

初回実行後はオフラインで動作します。モデルの重みは初回に initialize_model(model_path=...) へ指定したディレクトリにダウンロードされ、評価ライセンスも自動取得されます。以降はネット接続不要です。

ライセンスはどう扱われますか?

評価ライセンスは実行時に自動でダウンロードされ、開発・評価用途に利用できます。商用配布には製品ライセンスを申請してください。詳細は ailia ライセンス規約を参照してください。

はじめに

インストール

サンプルを実行

サンプルをクローン

ビルドして実行

UPM でインストール

サンプルを実行

pubspec に追加

サンプルを実行

バインディングをクローン

サンプルを実行

動作環境

対応 OS

言語とコンパイラ

対応モデル

対応言語

機能

TTS モデル

ボイスクローン

多言語対応

カスタマイズ

プロジェクトで API を使う

プラットフォーム別 API リファレンス

Python

C++

Unity

Flutter

JNI

よくある質問

資料

関連記事