ailia LLM

はじめに

プラットフォームを選び、最初のローカルチャットを動かしてみましょう。

インストール

ailia LLM の Python パッケージを PyPI からインストールします。

pip3 install ailia_llm

PyPI で見る

サンプルを実行

ailia-models から example_ailia_llm.py をダウンロードして実行します。初回実行時に Gemma 3 4B の GGUF ファイルをダウンロードし、チャット応答をストリーミング生成します。マルチモーダル (画像対応) 版を試すには同じフォルダの example_ailia_llm_mtmd.py を取得してください。

wget https://raw.githubusercontent.com/ailia-ai/ailia-models/master/large_language_model/gemma3/example_ailia_llm.py
python3 example_ailia_llm.py

example_ailia_llm.py example_ailia_llm_mtmd.py (multimodal)

評価版を入手

無料トライアルに申し込むと、C++ バインディング (ailia_llm.h)、ランタイムライブラリ (ailia_llm)、実行可能サンプルを含む評価版パッケージを入手できます。

無料トライアルを申し込む

モデルをダウンロードして実行

GGUF ファイル (例: Hugging Face の Gemma 2-2B) を models/ に配置し、サンプルをビルドして実行します。

# macOS
clang++ -o ailia_llm_sample ailia_llm_sample.cpp \
  libailia_llm.dylib -Wl,-rpath,./ -std=c++17

./ailia_llm_sample

C++ セットアップガイド

UPM でインストール

Unity (2021.3.10f1 以降) で Window > Package Manager を開き、+ > Add package from git URL をクリックして下記のバインディング URL を入力します。

https://github.com/ailia-ai/ailia-llm-unity.git

Unity API リファレンス

サンプルを実行

ailia-models-unity をクローンして Unity Editor (2021.3.10f1 以降) で開き、GGUF ファイルを StreamingAssets/ に配置して LargeLanguageModel シーンを Play すると、チャットのトークンがストリーミング表示されます。

git clone https://github.com/ailia-ai/ailia-models-unity.git

AiliaLargeLanguageModelSample.cs

pubspec に追加

Flutter プロジェクトの pubspec.yaml に ailia LLM を git 依存として追加し、flutter pub get を実行します。Flutter 3.19.6 以降が必要です。macOS では macos/Runner/Release.entitlements と Debug.entitlements の com.apple.security.app-sandbox を false に設定してください。

dependencies:
  ailia_llm:
    git:
      url: https://github.com/ailia-ai/ailia-llm-flutter.git
      ref: main

Flutter API リファレンス

サンプルを実行

そのまま動くチャットアプリは Flutter サンプルリポジトリにあります。クローンしてご利用ください。

git clone https://github.com/ailia-ai/ailia-models-flutter.git
cd ailia-models-flutter
flutter pub get
flutter run

サンプルリポジトリ

プロジェクトで API を使う

自分のアプリケーションでチャットをストリーム生成する最小サンプル。

import ailia_llm

model = ailia_llm.AiliaLLM()
model.open("gemma-2-2b-it-Q4_K_M.gguf")

messages = [{"role": "user", "content": "あなたの名前は何ですか？"}]
for delta in model.generate(messages):
    print(delta, end="")

#include "ailia_llm.h"

struct AILIALLM *llm = nullptr;
ailiaLLMCreate(&llm);
ailiaLLMOpenModelFileA(llm, "gemma-2-2b-it-Q4_K_M.gguf", /*ctx_size=*/0);

AILIALLMChatMessage messages[] = {
    {"user", "あなたの名前は何ですか？"},
};
ailiaLLMSetPrompt(llm, messages, 1);

unsigned int done = 0;
while (!done) {
    ailiaLLMGenerate(llm, &done);
    /* read delta via ailiaLLMGetDeltaText */
}
ailiaLLMDestroy(llm);

using ailiaLLM;

var llm = new AiliaLLMModel();
llm.Create();
llm.Open("gemma-2-2b-it-Q4_K_M.gguf");

var messages = new List<AiliaLLMChatMessage> {
    new AiliaLLMChatMessage("user", "あなたの名前は何ですか？"),
};
llm.SetPrompt(messages);

bool done = false;
while (!done) {
    llm.Generate(ref done);
    Debug.Log(llm.GetDeltaText());
}
llm.Close();

import 'package:ailia_llm/ailia_llm.dart';

final llm = AiliaLLMModel();
await llm.open('gemma-2-2b-it-Q4_K_M.gguf');

final messages = [AiliaLLMChatMessage(role: 'user', content: 'あなたの名前は何ですか？')];
await for (final delta in llm.generate(messages)) {
  stdout.write(delta);
}

val llm = AiliaLLM()
llm.openModelFile(modelPath, contextSize)
llm.setSamplingParams(40, 0.9f, 0.4f, 1234)

llm.setPrompt(arrayOf(
    AiliaLLMChatMessage("user", "あなたの名前は何ですか？"),
))

var done = false
while (!done) {
    done = llm.generate()
    Log.d("ailia", llm.getDeltaText())
}

よくある質問

ailia LLM についてのよくある質問。

対応しているモデル形式は?

ailia LLM は llama.cpp と同じ GGUF 形式を読み込みます。Hugging Face のチェックポイントは llama.cpp 同梱の convert_hf_to_gguf.py で GGUF に変換するか、Hugging Face で配布されている変換済み GGUF をダウンロードして利用できます。

対応しているモデルアーキテクチャは?

Llama / Gemma / Mistral / Qwen / Phi / DeepSeek など、llama.cpp が対応するアーキテクチャに準じます。互換性は llama.cpp の上流に追従します。

生成されるトークンをストリーミングで受け取るには?

model.generate(messages) はモデルがトークンをデコードするたびに差分文字列を返すイテレータです。これを順に受け取ってバッファに足すか直接表示すれば、ストリーミング UX を実現できます。

必要なメモリ量は?

メモリ使用量はおおむね GGUF ファイルサイズ + KV キャッシュ＋中間テンソル分です。目安として Q4 量子化では 2B ≈ 2 GB、7B ≈ 5 GB、13B ≈ 9 GB になります。メモリが限られる端末では、より小さいモデルや高い量子化 (Q4 → Q3) を選んでください。

GPU 推論に対応していますか?

はい。ailia LLM は iOS / macOS で Metal、Windows で Vulkan を使用します (ailia SDK / Speech / Voice と異なり cuDNN は不要です)。GPU が無い環境では CPU フォールバックします。

C++ で使うとき、ライセンスファイルはどこに置きますか?

C++ バインディングはランタイムライブラリと同じ場所に ailia.lic を配置する必要があります:

Windows: ailia.dll と同じフォルダ (サンプルでは cpp/ 配下)。
macOS: ~/Library/SHALO/
Linux: ~/.shalo/

Python / Unity / Flutter / JNI バインディングは初回実行時にライセンスを自動ダウンロードするため、この手順は C++ バインディングに限ります。

ライセンスはどう扱われますか?

評価ライセンスは実行時に自動でダウンロードされ、開発・評価用途に利用できます。商用配布には製品ライセンスを申請してください。詳細は ailia ライセンス規約を参照してください。

はじめに

インストール

サンプルを実行

評価版を入手

モデルをダウンロードして実行

UPM でインストール

サンプルを実行

pubspec に追加

サンプルを実行

動作環境

対応 OS

言語とコンパイラ

モデル形式

メモリ目安

プロジェクトで API を使う

プラットフォーム別 API リファレンス

Python

C++

Unity

Flutter

よくある質問

資料