メインコンテンツまでスキップ

「Stable Diffusion」タグの記事が1件件あります

全てのタグを見る

東工大からアメリカで博士獲る!「つくる人をつくる」AICUならではの未来を予感させるクリエイター交流会 ロングレポート \#イベントレポート

· 約16分
しらいはかせ - Akihiko SHIRAI
Cheif Editor of AICU media

2025年1月8日、Cagliostro Research Labは、アニメに特化した最新のSDXLモデル「Animagine XL 4.0」を発表しました。 Animagine XL シリーズの最新作であり、前バージョンをさらに進化させた本モデルは、Stable Diffusion XL 1.0 をベースに、840万枚ものアニメスタイル画像で再学習されています。 本記事では、Animagine XL 4.0 の概要、使い方、そして実際に高品質なアニメイラストを生成する方法について解説します。

Animagine XL 4.0 とは?

Animagine XL 4.0 (Anim4gineとも表記) は、アニメに特化したSDXLモデルの最新バージョンです。 Stable Diffusion XL 1.0 から再学習されており、2025年1月7日までの知識を持つ840万枚の多様なアニメスタイル画像データセットで、約2650GPU時間かけてファインチューニングされました。 前バージョンと同様に、タグ順序法(tag ordering method)を用いて学習されています。

モデル詳細

  • 開発元: Cagliostro Research Lab
  • モデルタイプ: Diffusion-based text-to-image generative model (拡散モデルベースのテキストから画像生成モデル)
  • ライセンス: CreativeML Open RAIL++-M
  • モデル概要: テキストプロンプトに基づいてアニメ тематика (テーマ) の画像を生成・編集
  • ファインチューン元: Stable Diffusion XL 1.0

利用方法

Animagine XL 4.0 は、以下の環境で利用できます。

  • Hugging Face Spaces
  • ComfyUI
  • Stable Diffusion WebUI
  • Diffusers

Diffusersでの利用方法を以下に紹介します。

Diffusers インストール手順

pip install diffusers transformers accelerate safetensors --upgrade

推奨コード例

import torch
from diffusers import StableDiffusionXLPipeline

# パイプラインの準備
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0", # モデルID
torch_dtype=torch.float16, # データ型をfloat16に指定
use_safetensors=True, # safetensors形式のモデルを使用
custom_pipeline="lpw_stable_diffusion_xl", # lpw_stable_diffusion_xl パイプラインを使用
add_watermarker=False # ウォーターマーカーを無効化
)
pipe.to('cuda') # GPUへモデルを転送

# プロンプトとネガティブプロンプト
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres" # 生成したい画像のプロンプト
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry" # 画像に含めたくない要素のネガティブプロンプト

# 画像生成
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832, # 画像の幅
height=1216, # 画像の高さ
guidance_scale=6, # CFGスケール
num_inference_steps=25 # 推論ステップ数
).images[0]

# 画像保存
image.save("./arima_kana.png")

ポイント

  • lpw_stable_diffusion_xl パイプラインを使用することで、長文、重み付け、詳細なプロンプトをより効果的に処理できます。
  • モデルはFP16形式でアップロード済みのため、from_pretrained 呼び出しで variant="fp16" を指定する必要はありません。

Animagine XL 4.0 おすすめ設定とプロンプト

Animagine XL 4.0 を最大限に活用するための、プロンプト構造、品質向上タグ、推奨設定、解像度について解説します。

1. プロンプト構造

Animagine XL 4.0 は、タグベースのキャプションとタグ順序法で学習されています。 以下の構造化されたテンプレートを使用推奨とのことです。

1girl/1boy/1other, character name, from which series, everything else in any order.

(例: 1girl, firefly (honkai: star rail), honkai (series), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night)

2. 品質向上タグ

プロンプトの先頭または末尾に以下のタグを追加することで、画質が向上します。

masterpiece, high score, great score, absurdres

3. 推奨ネガティブプロンプト

ネガティブプロンプトの使用も推奨されています。

lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry

4. 最適な設定

  • CFG Scale: 5-7 (6 推奨)
  • Sampling Steps: 25-28 (25 推奨)
  • 推奨 Sampler: Euler Ancestral (Euler a)

5. 推奨解像度

Orientation (向き)Dimensions (サイズ)Aspect Ratio (アスペクト比)
Square (正方形)1024 x 10241:1
Landscape (横長)1152 x 8969:7
1216 x 8323:2
1344 x 7687:4
1536 x 64012:5
Portrait (縦長)896 x 11527:9
832 x 12162:3
768 x 13444:7
640 x 15365:12

6. プロンプト例 (最終構造)

masterpiece, high score, great score, absurdres, 1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night

特殊タグ

Animagine XL 4.0 は、画像生成プロセスを制御するための様々な特殊タグをサポートしています。

品質タグ (Quality Tags)

画像の全体的な品質と詳細レベルに影響を与える基本的なコントロールです。

  • masterpiece
  • best quality
  • low quality
  • worst quality

スコアタグ (Score Tags)

基本的な品質タグよりも、画像の品質をより細かく制御できます。

  • high score
  • great score
  • good score
  • average score
  • bad score
  • low score

時間タグ (Temporal Tags)

特定の時代や年代に基づいた художественный стиль ( художественный стиль) に影響を与えることができます。

  • year 2005
  • year {n}
  • year 2025

レーティングタグ (Rating Tags)

生成される画像のコンテンツ安全性レベルを制御します。

  • safe
  • sensitive
  • nsfw
  • explicit

学習情報

Animagine XL 4.0 は、高性能ハードウェアと最適化されたハイパーパラメータを使用して学習されました。

パラメータ (Parameter)値 (Value)
ハードウェア (Hardware)7 x H100 80GB SXM5
画像数 (Num Images)8,401,464
UNet 学習率 (UNet Learning Rate)2.5e-6
Text Encoder 学習率 (Text Encoder Learning Rate)1.25e-6
スケジューラ (Scheduler)Constant With Warmup
Warmup Steps5%
バッチサイズ (Batch Size)32
Gradient Accumulation Steps2
学習解像度 (Training Resolution)1024x1024
OptimizerAdafactor
Input Perturbation Noise0.1
Debiased Estimation LossEnabled
Mixed Precisionfp16

謝辞

Cagliostro Research Lab は、Stability AI, Novel AI, Waifu Diffusion Team の画期的な研究、革新的な貢献、包括的なドキュメントに深い感謝を表明しました。 特に、Mainからのキックスターター助成金が V2 からの進歩を可能にしたことに感謝しているとのことです。 今回のバージョンに関して、コミュニティ всем (すべての) 継続的なサポート、特に以下の方々に心から感謝を述べました。

  • Moescape AI: モデル配布とテストにおける貴重なコラボレーションパートナー
  • Lesser Rabbit: 不可欠な вычислительная техника (コンピューティング) および研究助成金の提供
  • Kohya SS: 包括的なオープンソース学習フレームワークの開発
  • discus0434: 業界をリードするオープンソース Aesthetic Predictor 2.5 の作成
  • Early testers: критический ( критический) なフィードバックと徹底的な品質保証の提供における献身

貢献者

本プロジェクトに大きく貢献したチームメンバー (一部)

  • モデル (Model): KayfaHaarukku, Raelina, Linaqruf, Gradio, Damar Jati
  • 広報、財務、品質保証 (Relations, finance, and quality assurance): Scipius, Asahina, Bell, BoboiAzumi
  • データ (Data): Pomegranata, Kr1SsSzz, Fiqi, William Adams Soeherman

資金調達

Cagliostro Research Lab は、新たな学習、研究、モデル開発のための資金調達を再開しました。 支援は以下の方法で可能です。

  • 寄付 (Donate): ETH または USDT で下記アドレスへ寄付 0xd8A1dA94BA7E6feCe8CfEacc1327f498fCcBFC0C

寄付に крипто валюта (暗号通貨) を使用する理由

詳細はこちらをご覧ください。

крипто валюта (暗号通貨) 以外での寄付

Discord サーバーに参加し、お問い合わせください。

[Discord Banner 2](Discord Banner 2) Discord サーバーへのリンクは元記事をご確認ください

制限事項

Animagine XL 4.0 には、以下の制限事項があります。

  • プロンプト形式 (Prompt Format): タグベースのテキストプロンプトに ограничение (限定); 自然言語入力は 効果的ではない可能性
  • 解剖学 (Anatomy): 複雑な анатомия (解剖学的) детальность (詳細), 特に手のポーズと指の数え上げは苦手
  • テキスト生成 (Text Generation): 画像内のテキスト レдеринг ( редеринг) は 現在 サппорт ( саппорт) されていません
  • 新規キャラクター (New Characters): 最近の キャラクター は 学習データ 可доступность ( 可доступность) の 限定のため, 精度が 低下する可能性
  • 複数キャラクター (Multiple Characters): 複数 キャラクター シーン では 注意深い プロンプト Инженерия ( Инженерия) が 必要
  • 解像度 (Resolution): より高い 解像度 (例: 1536x1536) では, 学習 が 元の SDXL 解像度 を 使用したため, 品質 低下 が 見られる可能性
  • スタイル 一貫性 (Style Consistency): スタイル 一貫性 よりも アイデンティティ Сохранение ( Сохранение) に 重点を置いた 学習のため, 特定の スタイル タグ が 必要となる場合

ライセンス

Animagine XL 4.0 は、Stability AI のオリジナルの CreativeML Open RAIL++-M License を 修正なしで 採用しています。

✅ 許可事項 (Permitted):

  • Коммерческое использование (Коммерческое использование) (商用利用)
  • Модификации (Модификации) (改変)
  • Дистрибуция (Дистрибуция) (配布)
  • Приватное использование (Приватное использование) (私的利用)

❌ 禁止事項 (Prohibited):

  • Незаконная деятельность (Незаконная деятельность) (違法行為)
  • Вредный контент поколения (Вредный контент поколения) (有害コンテンツ生成)
  • Дискриминация (Дискриминация) (差別)
  • Эксплуатация (Эксплуатация) (搾取)

⚠️ 要件 (Requirements):

  • ライセンス Копия ( Копия) を 含める
  • 変更点 を 記述する
  • 通知 を Сохранить ( Сохранить) する

📝 保証 (Warranty):

  • "現状有姿" で 提供, 保証なし

詳細 и (и) полный (полный) текст (текст) は オリジナル SDXL ライセンス を 参照してください。

Animagine XL 4.0 は、アニメ тематика (テーマ) の висококачественный (висококачественный) な 画像生成 を 可能にする, パтужный (патужный) モデル です. ぜひ, お試しください.


📝noteでのフォロー、マガジン購読、SNSフォローもお願いします!

AICU media編集部では、AI技術に関する最新情報をnoteで発信しています。 noteをフォローすると、最新記事の更新情報が届きます。 ぜひフォローをお願いします。

📝noteでのフォロー https://note.com/aicu

メールマガジン「週刊AICU通信」では、AI関連のニュースやトレンド、イベント情報などを毎週お届けしています。 購読登録はこちらから!

📩メールマガジン「週刊AICU通信」購読 https://corp.aicu.ai/ja

Kindleストアでは、月刊AICUマガジンを配信しています。 AI技術の 특집 ( 특집) や 深度 анализ ( 深度 анализ) 記事を 読むことができます。

📚️Kindle「月刊AICUマガジン」 https://j.aicu.ai/kindle

X (旧Twitter) でも情報発信しています。 AIに関する最新情報やイベント情報、

トーンとマナー

AICUは「つくる人をつくる」をビジョンにしています。 記事のターゲット性別は男性か女性かでいえば、テクノロジー分野で働く女性をターゲットにする(つまり強く男性読者に寄せすぎないやさしいですます調文体)。 技術手順書としてシャープで丁寧な表現を心がける。 ・これはカジュアルな生成AIクリエイター向けのブログです。美術系の大学生が読めるぐらいの日本語でお願いします。 ・ロシア語や韓国語を使わない。これは日本語ブログです。英語の単語は許容しますが専門用語に限ります。 ・HTMLに記載されているハイパーリンクを上手に使ってください。 ・箇条書きは効果的に使ってください。行を増やさずに流暢な日本語で説明するほうがいい場合もあります。 ・表はこのMarkdownでは使えません。箇条書きや、わかりやすい改行で表現してください。 ・「アニメやゲームなどのキャラクターや商標、固有名詞については日本の著作権法では問題になる可能性があります。AICU編集部はオープンに公開されたモデル使用に関する責任は利用者にあるという立場で紹介しており、その使用や生成方法については十分注意することがあることを明記しております。」を追加。