東工大からアメリカで博士獲る!「つくる人をつくる」AICUならではの未来を予感させるクリエイター交流会 ロングレポート \#イベントレポート
2025年1月8日、Cagliostro Research Labは、アニメに特化した最新のSDXLモデル「Animagine XL 4.0」を発表しました。 Animagine XL シリーズの最新作であり、前バージョンをさらに進化させた本モデルは、Stable Diffusion XL 1.0 をベースに、840万枚ものアニメスタイル画像で再学習されています。 本記事では、Animagine XL 4.0 の概要、使い方、そして実際に高品質なアニメイラストを生成する方法について解説します。
Animagine XL 4.0 とは?
Animagine XL 4.0 (Anim4gineとも表記) は、アニメに特化したSDXLモデルの最新バージョンです。 Stable Diffusion XL 1.0 から再学習されており、2025年1月7日までの知識を持つ840万枚の多様なアニメスタイル画像データセットで、約2650GPU時間かけてファインチューニングされました。 前バージョンと同様に、タグ順序法(tag ordering method)を用いて学習されています。
モデル詳細
- 開発元: Cagliostro Research Lab
- モデルタイプ: Diffusion-based text-to-image generative model (拡散モデルベースのテキストから画像生成モデル)
- ライセンス: CreativeML Open RAIL++-M
- モデル概要: テキストプロンプトに基づいてアニメ тематика (テーマ) の画像を生成・編集
- ファインチューン元: Stable Diffusion XL 1.0
利用方法
Animagine XL 4.0 は、以下の環境で利用できます。
- Hugging Face Spaces
- ComfyUI
- Stable Diffusion WebUI
- Diffusers
Diffusersでの利用方法を以下に紹介します。
Diffusers インストール手順
pip install diffusers transformers accelerate safetensors --upgrade
推奨コード例
import torch
from diffusers import StableDiffusionXLPipeline
# パイプラインの準備
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0", # モデルID
torch_dtype=torch.float16, # データ型をfloat16に指定
use_safetensors=True, # safetensors形式のモデルを使用
custom_pipeline="lpw_stable_diffusion_xl", # lpw_stable_diffusion_xl パイプラインを使用
add_watermarker=False # ウォーターマーカーを無効化
)
pipe.to('cuda') # GPUへモデルを転送
# プロンプトとネガティブプロンプト
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres" # 生成したい画像のプロンプト
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry" # 画像に含めたくない要素のネガティブプロンプト
# 画像生成
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832, # 画像の幅
height=1216, # 画像の高さ
guidance_scale=6, # CFGスケール
num_inference_steps=25 # 推論ステップ数
).images[0]
# 画像保存
image.save("./arima_kana.png")
ポイント
lpw_stable_diffusion_xl
パイプラインを使用することで、長文、重み付け、詳細なプロンプトをより効果的に処理できます。- モデルはFP16形式でアップロード済みのため、
from_pretrained
呼び出しでvariant="fp16"
を指定する必要はありません。
Animagine XL 4.0 おすすめ設定とプロンプト
Animagine XL 4.0 を最大限に活用するための、プロンプト構造、品質向上タグ、推奨設定、解像度について解説します。
1. プロンプト構造
Animagine XL 4.0 は、タグベースのキャプションとタグ順序法で学習されています。 以下の構造化されたテンプレートを使用推奨とのことです。
1girl/1boy/1other, character name, from which series, everything else in any order.
(例: 1girl, firefly (honkai: star rail), honkai (series), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night)
2. 品質向上タグ
プロンプトの先頭または末尾に以下のタグを追加することで、画質が向上します。
masterpiece, high score, great score, absurdres
3. 推奨ネガティブプロンプト
ネガティブプロンプトの使用も推奨されています。
lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry
4. 最適な設定
- CFG Scale: 5-7 (6 推奨)
- Sampling Steps: 25-28 (25 推奨)
- 推奨 Sampler: Euler Ancestral (Euler a)
5. 推奨解像度
Orientation (向き) | Dimensions (サイズ) | Aspect Ratio (アスペクト比) |
---|---|---|
Square (正方形) | 1024 x 1024 | 1:1 |
Landscape (横長) | 1152 x 896 | 9:7 |
1216 x 832 | 3:2 | |
1344 x 768 | 7:4 | |
1536 x 640 | 12:5 | |
Portrait (縦長) | 896 x 1152 | 7:9 |
832 x 1216 | 2:3 | |
768 x 1344 | 4:7 | |
640 x 1536 | 5:12 |
6. プロンプト例 (最終構造)
masterpiece, high score, great score, absurdres, 1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night
特殊タグ
Animagine XL 4.0 は、画像生成プロセスを制御するための様々な特殊タグをサポートしています。
品質タグ (Quality Tags)
画像の全体的な品質と詳細レベルに影響を与える基本的なコントロールです。
masterpiece
best quality
low quality
worst quality
スコアタグ (Score Tags)
基本的な品質タグよりも、画像の品質をより細かく制御できます。
high score
great score
good score
average score
bad score
low score
時間タグ (Temporal Tags)
特定の時代や年代に基づいた художественный стиль ( художественный стиль) に影響を与えることができます。
year 2005
year {n}
year 2025
レーティングタグ (Rating Tags)
生成される画像のコンテンツ安全性レベルを制御します。
safe
sensitive
nsfw
explicit
学習情報
Animagine XL 4.0 は、高性能ハードウェアと最適化されたハイパーパラメータを使用して学習されました。
パラメータ (Parameter) | 値 (Value) |
---|---|
ハードウェア (Hardware) | 7 x H100 80GB SXM5 |
画像数 (Num Images) | 8,401,464 |
UNet 学習率 (UNet Learning Rate) | 2.5e-6 |
Text Encoder 学習率 (Text Encoder Learning Rate) | 1.25e-6 |
スケジューラ (Scheduler) | Constant With Warmup |
Warmup Steps | 5% |
バッチサイズ (Batch Size) | 32 |
Gradient Accumulation Steps | 2 |
学習解像度 (Training Resolution) | 1024x1024 |
Optimizer | Adafactor |
Input Perturbation Noise | 0.1 |
Debiased Estimation Loss | Enabled |
Mixed Precision | fp16 |
謝辞
Cagliostro Research Lab は、Stability AI, Novel AI, Waifu Diffusion Team の画期的な研究、革新的な貢献、包括的なドキュメントに深い感謝を表明しました。 特に、Mainからのキックスターター助成金が V2 からの進歩を可能にしたことに感謝しているとのことです。 今回のバージョンに関して、コミュニティ всем (すべての) 継続的なサポート、特に以下の方々に心から感謝を述べました。
- Moescape AI: モデル配布とテストにおける貴重なコラボレーションパートナー
- Lesser Rabbit: 不可欠な вычислительная техника (コンピューティング) および研究助成金の提供
- Kohya SS: 包括的なオープンソース学習フレームワークの開発
- discus0434: 業界をリードするオープンソース Aesthetic Predictor 2.5 の作成
- Early testers: критический ( критический) なフィードバックと徹底的な品質保証の提供における献身