ailia Tokenizer

はじめに

プラットフォームを選び、Python transformers に依存せずにトークナイズしてみましょう。

インストール

ailia Tokenizer の Python パッケージを PyPI からインストールします。

pip3 install ailia_tokenizer

PyPI で見る

サンプルを実行

ailia-models をクローンし、multilingual-MiniLMv2 のゼロショット分類サンプルを実行します。tokenizer/ ディレクトリには sentencepiece.bpe.model と tokenizer_config.json が同梱されており、これは XLMRobertaTokenizer.from_pretrained() が期待するファイル構成です。

git clone https://github.com/ailia-ai/ailia-models.git
cd ailia-models/natural_language_processing/multilingual-minilmv2
pip3 install -r requirements.txt
python3 multilingual-minilmv2.py

tokenizer/ file layout

バインディングをクローン

C++ バインディングリポジトリをクローンし、libailia_tokenizer にリンクします。各トークナイザファイルは対応する API (OpenModelFile / OpenVocabFile / OpenMergeFile / OpenDictionaryFile) で開きます。

git clone https://github.com/ailia-ai/ailia-tokenizer-cpp.git

バインディング

ビルドして実行

同梱サンプルをビルドし、トークナイザファイルと入力テキストを渡して実行します。

# macOS
clang++ -o tokenizer_sample tokenizer_sample.cpp \
  libailia_tokenizer.dylib -Wl,-rpath,./ -std=c++17

./tokenizer_sample bert vocab.txt

C++ セットアップガイド

UPM でインストール

Unity (2021.3.10f1 以降) で Window > Package Manager を開き、+ > Add package from git URL をクリックして下記のバインディング URL を入力します。

https://github.com/ailia-ai/ailia-tokenizer-unity.git

Unity API リファレンス

サンプルを実行

ailia-models-unity をクローンして Unity Editor (2021.3.10f1 以降) で開き、NaturalLanguageProcessing/AiliaNaturalLanguageProcessingSample.unity を Play するとコンソールにトークン ID が表示されます。

git clone https://github.com/ailia-ai/ailia-models-unity.git

サンプルシーン

pubspec に追加

Flutter プロジェクトの pubspec.yaml に ailia Tokenizer を git 依存として追加し、flutter pub get を実行します。Flutter 3.19.6 以降が必要です。macOS では macos/Runner/Release.entitlements と Debug.entitlements の com.apple.security.app-sandbox を false に設定してください。

dependencies:
  ailia_tokenizer:
    git:
      url: https://github.com/ailia-ai/ailia-tokenizer-flutter.git
      ref: main

Flutter API リファレンス

サンプルを実行

ailia-tokenizer-flutter をクローンして同梱サンプルアプリを実行します。assets/ から XLM-RoBERTa の SentencePiece モデルをコピーし、文字列をエンコードします。

git clone https://github.com/ailia-ai/ailia-tokenizer-flutter.git
cd ailia-tokenizer-flutter/example
flutter pub get
flutter run

example/lib/main.dart

バインディングをクローン

JNI バインディングリポジトリをクローンして Android Studio プロジェクトに追加します。

git clone https://github.com/ailia-ai/ailia-tokenizer-jni.git

バインディング

サンプルを実行

ailia-models-kotlin をサブモジュール込みでクローンし Android Studio で開きます。トークナイザを使った XLM-RoBERTa のゼロショット分類サンプルが同梱されています。

git clone https://github.com/ailia-ai/ailia-models-kotlin.git
cd ailia-models-kotlin
git submodule update --init --recursive

AiliaMiniLMv2Sample.kt

機能

Hugging Face 互換 API を備えた 12 種類のトークナイザ。

音声 / 視覚

Whisper (多言語)
CLIP (テキスト・画像)

翻訳 / 要約

Marian (FuguMT 英 ↔ 日)
T5 (sentencepiece)
XLM-RoBERTa

BERT 系

BERT (英語)
BERT 日本語 WordPiece
BERT 日本語 Character
RoBERTa

LLM 系

GPT-2
Llama
Gemma

プロジェクトで API を使う

自分のアプリケーションでテキストをエンコード・デコードする最小サンプル。

import ailia_tokenizer

tok = ailia_tokenizer.BertTokenizer.from_pretrained("./tokenizer/")
ids = tok.encode("Hello, world!")
text = tok.decode(ids)

#include "ailia_tokenizer.h"

struct AILIATokenizer *tok = nullptr;
ailiaTokenizerCreate(&tok, AILIA_TOKENIZER_TYPE_BERT, AILIA_TOKENIZER_FLAG_NONE);
ailiaTokenizerOpenVocabFileA(tok, "vocab.txt");

ailiaTokenizerEncode(tok, "Hello, world!");
unsigned int n; ailiaTokenizerGetTokenCount(tok, &n);

ailiaTokenizerDestroy(tok);

using ailiaTokenizer;

var tokenizer = new AiliaTokenizerModel();
tokenizer.Create(AiliaTokenizer.AILIA_TOKENIZER_TYPE_BERT,
                 AiliaTokenizer.AILIA_TOKENIZER_FLAG_NONE);
tokenizer.Open(Path.Combine(Application.streamingAssetsPath, "tokenizer/"));

int[] ids = tokenizer.Encode("Hello, world!");
string text = tokenizer.Decode(ids);

import 'package:ailia_tokenizer/ailia_tokenizer.dart' as ailia_tokenizer_dart;
import 'package:ailia_tokenizer/ailia_tokenizer_model.dart';
import 'dart:typed_data';

final tokenizer = AiliaTokenizerModel();
tokenizer.openFile(modelFile: bpePath,
                   ailia_tokenizer_dart.AILIA_TOKENIZER_TYPE_XLM_ROBERTA);

final Int32List ids = tokenizer.encode('Hello, world!');
final String text = tokenizer.decode(ids);

val tokenizer = AiliaTokenizer(AiliaTokenizer.AILIA_TOKENIZER_TYPE_BERT)
tokenizer.loadFiles(modelPath = tokenizerPath)

val ids = tokenizer.encode("Hello, world!")
val text = tokenizer.decode(ids)

よくある質問

ailia Tokenizer についてのよくある質問。

Hugging Face transformers ではなく ailia Tokenizer を使う理由は?

transformers は Python 専用です。ailia Tokenizer は同じトークナイザを C++ / Unity (C#) / Flutter (Dart) / JNI / Python から呼び出せるネイティブライブラリとして提供しているため、Python ランタイムを同梱せずに iOS / Android / 組み込み環境でもトークナイズできます。

Python API は transformers と同じインターフェース (from_pretrained() / encode() / decode() など) を提供するため、既存コードは通常 import の差し替えだけで動きます。

対応しているトークナイザの種類は?

主要なモデルファミリをカバーする 12 種類: Whisper / CLIP / XLM-RoBERTa / Marian / BERT (英語) / BERT 日本語 WordPiece / BERT 日本語 Character / T5 / RoBERTa / GPT-2 / Llama / Gemma。

ailia Tokenizer は transformers の挙動とどう一致しますか?

encode() は tokenizer(sents, split_special_tokens=True) と一致します (特殊トークンはテキストとしてエンコード、padding / truncation なし)。

encodeWithSpecialTokens() は tokenizer(sents) と一致します (特殊トークンを ID としてエンコード)。

decode() は tokenizer.decode(ids, skip_special_tokens=True) と一致します。decodeWithSpecialTokens() は特殊トークンを保持します。

各トークナイザに必要な追加ファイルは?

Whisper / CLIP / GPT-2 は単体で完結します。それ以外のトークナイザは関連ファイルを同じ場所に配置する必要があります:

SentencePiece (T5 / XLM-RoBERTa / Marian / Llama / Gemma): spiece.model / tokenizer.model / source.spm。
BERT (英語): vocab.txt + tokenizer_config.json。
BERT 日本語: ipadic 辞書 + vocab.txt (NFKC 正規化は自動)。
RoBERTa: vocab.json + merges.txt。

Python: 必要なファイルをひとつのディレクトリに置き、そのパスを from_pretrained() に渡します (例: BertTokenizer.from_pretrained("./tokenizer/"))。
C / C++ / Unity / Flutter / JNI: 対応する OpenModelFile / OpenVocabFile / OpenMergeFile / OpenDictionaryFile API で個別に開きます。

C++ で使うとき、ライセンスファイルはどこに置きますか?

C++ バインディングはランタイムライブラリと同じ場所に ailia.lic を配置する必要があります:

Windows: ailia.dll と同じフォルダ (サンプルでは cpp/ 配下)。
macOS: ~/Library/SHALO/
Linux: ~/.shalo/

Python / Unity / Flutter / JNI バインディングは初回実行時にライセンスを自動ダウンロードするため、この手順は C++ バインディングに限ります。

ライセンスはどう扱われますか?

評価ライセンスは実行時に自動でダウンロードされ、開発・評価用途に利用できます。商用配布には製品ライセンスを申請してください。詳細は ailia ライセンス規約を参照してください。

はじめに

インストール

サンプルを実行

バインディングをクローン

ビルドして実行

UPM でインストール

サンプルを実行

pubspec に追加

サンプルを実行

バインディングをクローン

サンプルを実行

動作環境

対応 OS

言語とコンパイラ

組み込みコンポーネント

出力形式

機能

音声 / 視覚

翻訳 / 要約

BERT 系

LLM 系

プロジェクトで API を使う

プラットフォーム別 API リファレンス

Python

C++

Unity

Flutter

JNI

よくある質問

資料