メインコンテンツまでスキップ

東工大からアメリカで博士獲る!「つくる人をつくる」AICUならではの未来を予感させるクリエイター交流会 ロングレポート \#イベントレポート

· 約16分
しらいはかせ - Akihiko SHIRAI
Cheif Editor of AICU media

2025年1月8日、Cagliostro Research Labは、アニメに特化した最新のSDXLモデル「Animagine XL 4.0」を発表しました。 Animagine XL シリーズの最新作であり、前バージョンをさらに進化させた本モデルは、Stable Diffusion XL 1.0 をベースに、840万枚ものアニメスタイル画像で再学習されています。 本記事では、Animagine XL 4.0 の概要、使い方、そして実際に高品質なアニメイラストを生成する方法について解説します。

Animagine XL 4.0 とは?

Animagine XL 4.0 (Anim4gineとも表記) は、アニメに特化したSDXLモデルの最新バージョンです。 Stable Diffusion XL 1.0 から再学習されており、2025年1月7日までの知識を持つ840万枚の多様なアニメスタイル画像データセットで、約2650GPU時間かけてファインチューニングされました。 前バージョンと同様に、タグ順序法(tag ordering method)を用いて学習されています。

モデル詳細

  • 開発元: Cagliostro Research Lab
  • モデルタイプ: Diffusion-based text-to-image generative model (拡散モデルベースのテキストから画像生成モデル)
  • ライセンス: CreativeML Open RAIL++-M
  • モデル概要: テキストプロンプトに基づいてアニメ тематика (テーマ) の画像を生成・編集
  • ファインチューン元: Stable Diffusion XL 1.0

利用方法

Animagine XL 4.0 は、以下の環境で利用できます。

  • Hugging Face Spaces
  • ComfyUI
  • Stable Diffusion WebUI
  • Diffusers

Diffusersでの利用方法を以下に紹介します。

Diffusers インストール手順

pip install diffusers transformers accelerate safetensors --upgrade

推奨コード例

import torch
from diffusers import StableDiffusionXLPipeline

# パイプラインの準備
pipe = StableDiffusionXLPipeline.from_pretrained(
"cagliostrolab/animagine-xl-4.0", # モデルID
torch_dtype=torch.float16, # データ型をfloat16に指定
use_safetensors=True, # safetensors形式のモデルを使用
custom_pipeline="lpw_stable_diffusion_xl", # lpw_stable_diffusion_xl パイプラインを使用
add_watermarker=False # ウォーターマーカーを無効化
)
pipe.to('cuda') # GPUへモデルを転送

# プロンプトとネガティブプロンプト
prompt = "1girl, arima kana, oshi no ko, hoshimachi suisei, hoshimachi suisei \(1st costume\), cosplay, looking at viewer, smile, outdoors, night, v, masterpiece, high score, great score, absurdres" # 生成したい画像のプロンプト
negative_prompt = "lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry" # 画像に含めたくない要素のネガティブプロンプト

# 画像生成
image = pipe(
prompt,
negative_prompt=negative_prompt,
width=832, # 画像の幅
height=1216, # 画像の高さ
guidance_scale=6, # CFGスケール
num_inference_steps=25 # 推論ステップ数
).images[0]

# 画像保存
image.save("./arima_kana.png")

ポイント

  • lpw_stable_diffusion_xl パイプラインを使用することで、長文、重み付け、詳細なプロンプトをより効果的に処理できます。
  • モデルはFP16形式でアップロード済みのため、from_pretrained 呼び出しで variant="fp16" を指定する必要はありません。

Animagine XL 4.0 おすすめ設定とプロンプト

Animagine XL 4.0 を最大限に活用するための、プロンプト構造、品質向上タグ、推奨設定、解像度について解説します。

1. プロンプト構造

Animagine XL 4.0 は、タグベースのキャプションとタグ順序法で学習されています。 以下の構造化されたテンプレートを使用推奨とのことです。

1girl/1boy/1other, character name, from which series, everything else in any order.

(例: 1girl, firefly (honkai: star rail), honkai (series), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night)

2. 品質向上タグ

プロンプトの先頭または末尾に以下のタグを追加することで、画質が向上します。

masterpiece, high score, great score, absurdres

3. 推奨ネガティブプロンプト

ネガティブプロンプトの使用も推奨されています。

lowres, bad anatomy, bad hands, text, error, missing finger, extra digits, fewer digits, cropped, worst quality, low quality, low score, bad score, average score, signature, watermark, username, blurry

4. 最適な設定

  • CFG Scale: 5-7 (6 推奨)
  • Sampling Steps: 25-28 (25 推奨)
  • 推奨 Sampler: Euler Ancestral (Euler a)

5. 推奨解像度

Orientation (向き)Dimensions (サイズ)Aspect Ratio (アスペクト比)
Square (正方形)1024 x 10241:1
Landscape (横長)1152 x 8969:7
1216 x 8323:2
1344 x 7687:4
1536 x 64012:5
Portrait (縦長)896 x 11527:9
832 x 12162:3
768 x 13444:7
640 x 15365:12

6. プロンプト例 (最終構造)

masterpiece, high score, great score, absurdres, 1girl, firefly \(honkai: star rail\), honkai \(series\), honkai: star rail, casual, solo, looking at viewer, outdoors, smile, reaching towards viewer, night

特殊タグ

Animagine XL 4.0 は、画像生成プロセスを制御するための様々な特殊タグをサポートしています。

品質タグ (Quality Tags)

画像の全体的な品質と詳細レベルに影響を与える基本的なコントロールです。

  • masterpiece
  • best quality
  • low quality
  • worst quality

スコアタグ (Score Tags)

基本的な品質タグよりも、画像の品質をより細かく制御できます。

  • high score
  • great score
  • good score
  • average score
  • bad score
  • low score

時間タグ (Temporal Tags)

特定の時代や年代に基づいた художественный стиль ( художественный стиль) に影響を与えることができます。

  • year 2005
  • year {n}
  • year 2025

レーティングタグ (Rating Tags)

生成される画像のコンテンツ安全性レベルを制御します。

  • safe
  • sensitive
  • nsfw
  • explicit

学習情報

Animagine XL 4.0 は、高性能ハードウェアと最適化されたハイパーパラメータを使用して学習されました。

パラメータ (Parameter)値 (Value)
ハードウェア (Hardware)7 x H100 80GB SXM5
画像数 (Num Images)8,401,464
UNet 学習率 (UNet Learning Rate)2.5e-6
Text Encoder 学習率 (Text Encoder Learning Rate)1.25e-6
スケジューラ (Scheduler)Constant With Warmup
Warmup Steps5%
バッチサイズ (Batch Size)32
Gradient Accumulation Steps2
学習解像度 (Training Resolution)1024x1024
OptimizerAdafactor
Input Perturbation Noise0.1
Debiased Estimation LossEnabled
Mixed Precisionfp16

謝辞

Cagliostro Research Lab は、Stability AI, Novel AI, Waifu Diffusion Team の画期的な研究、革新的な貢献、包括的なドキュメントに深い感謝を表明しました。 特に、Mainからのキックスターター助成金が V2 からの進歩を可能にしたことに感謝しているとのことです。 今回のバージョンに関して、コミュニティ всем (すべての) 継続的なサポート、特に以下の方々に心から感謝を述べました。

  • Moescape AI: モデル配布とテストにおける貴重なコラボレーションパートナー
  • Lesser Rabbit: 不可欠な вычислительная техника (コンピューティング) および研究助成金の提供
  • Kohya SS: 包括的なオープンソース学習フレームワークの開発
  • discus0434: 業界をリードするオープンソース Aesthetic Predictor 2.5 の作成
  • Early testers: критический ( критический) なフィードバックと徹底的な品質保証の提供における献身

貢献者

本プロジェクトに大きく貢献したチームメンバー (一部)

  • モデル (Model): KayfaHaarukku, Raelina, Linaqruf, Gradio, Damar Jati
  • 広報、財務、品質保証 (Relations, finance, and quality assurance): Scipius, Asahina, Bell, BoboiAzumi
  • データ (Data): Pomegranata, Kr1SsSzz, Fiqi, William Adams Soeherman

資金調達

Cagliostro Research Lab は、新たな学習、研究、モデル開発のための資金調達を再開しました。 支援は以下の方法で可能です。

  • 寄付 (Donate): ETH または USDT で下記アドレスへ寄付 0xd8A1dA94BA7E6feCe8CfEacc1327f498fCcBFC0C

寄付に крипто валюта (暗号通貨) を使用する理由

詳細はこちらをご覧ください。

крипто валюта (暗号通貨) 以外での寄付

Discord サーバーに参加し、お問い合わせください。

[Discord Banner 2](Discord Banner 2) Discord サーバーへのリンクは元記事をご確認ください

制限事項

Animagine XL 4.0 には、以下の制限事項があります。

  • プロンプト形式 (Prompt Format): タグベースのテキストプロンプトに ограничение (限定); 自然言語入力は 効果的ではない可能性
  • 解剖学 (Anatomy): 複雑な анатомия (解剖学的) детальность (詳細), 特に手のポーズと指の数え上げは苦手
  • テキスト生成 (Text Generation): 画像内のテキスト レдеринг ( редеринг) は 現在 サппорт ( саппорт) されていません
  • 新規キャラクター (New Characters): 最近の キャラクター は 学習データ 可доступность ( 可доступность) の 限定のため, 精度が 低下する可能性
  • 複数キャラクター (Multiple Characters): 複数 キャラクター シーン では 注意深い プロンプト Инженерия ( Инженерия) が 必要
  • 解像度 (Resolution): より高い 解像度 (例: 1536x1536) では, 学習 が 元の SDXL 解像度 を 使用したため, 品質 低下 が 見られる可能性
  • スタイル 一貫性 (Style Consistency): スタイル 一貫性 よりも アイデンティティ Сохранение ( Сохранение) に 重点を置いた 学習のため, 特定の スタイル タグ が 必要となる場合

ライセンス

Animagine XL 4.0 は、Stability AI のオリジナルの CreativeML Open RAIL++-M License を 修正なしで 採用しています。

✅ 許可事項 (Permitted):

  • Коммерческое использование (Коммерческое использование) (商用利用)
  • Модификации (Модификации) (改変)
  • Дистрибуция (Дистрибуция) (配布)
  • Приватное использование (Приватное использование) (私的利用)

❌ 禁止事項 (Prohibited):

  • Незаконная деятельность (Незаконная деятельность) (違法行為)
  • Вредный контент поколения (Вредный контент поколения) (有害コンテンツ生成)
  • Дискриминация (Дискриминация) (差別)
  • Эксплуатация (Эксплуатация) (搾取)

⚠️ 要件 (Requirements):

  • ライセンス Копия ( Копия) を 含める
  • 変更点 を 記述する
  • 通知 を Сохранить ( Сохранить) する

📝 保証 (Warranty):

  • "現状有姿" で 提供, 保証なし

詳細 и (и) полный (полный) текст (текст) は オリジナル SDXL ライセンス を 参照してください。

Animagine XL 4.0 は、アニメ тематика (テーマ) の висококачественный (висококачественный) な 画像生成 を 可能にする, パтужный (патужный) モデル です. ぜひ, お試しください.


📝noteでのフォロー、マガジン購読、SNSフォローもお願いします!

AICU media編集部では、AI技術に関する最新情報をnoteで発信しています。 noteをフォローすると、最新記事の更新情報が届きます。 ぜひフォローをお願いします。

📝noteでのフォロー https://note.com/aicu

メールマガジン「週刊AICU通信」では、AI関連のニュースやトレンド、イベント情報などを毎週お届けしています。 購読登録はこちらから!

📩メールマガジン「週刊AICU通信」購読 https://corp.aicu.ai/ja

Kindleストアでは、月刊AICUマガジンを配信しています。 AI技術の 특집 ( 특집) や 深度 анализ ( 深度 анализ) 記事を 読むことができます。

📚️Kindle「月刊AICUマガジン」 https://j.aicu.ai/kindle

X (旧Twitter) でも情報発信しています。 AIに関する最新情報やイベント情報、

トーンとマナー

AICUは「つくる人をつくる」をビジョンにしています。 記事のターゲット性別は男性か女性かでいえば、テクノロジー分野で働く女性をターゲットにする(つまり強く男性読者に寄せすぎないやさしいですます調文体)。 技術手順書としてシャープで丁寧な表現を心がける。 ・これはカジュアルな生成AIクリエイター向けのブログです。美術系の大学生が読めるぐらいの日本語でお願いします。 ・ロシア語や韓国語を使わない。これは日本語ブログです。英語の単語は許容しますが専門用語に限ります。 ・HTMLに記載されているハイパーリンクを上手に使ってください。 ・箇条書きは効果的に使ってください。行を増やさずに流暢な日本語で説明するほうがいい場合もあります。 ・表はこのMarkdownでは使えません。箇条書きや、わかりやすい改行で表現してください。 ・「アニメやゲームなどのキャラクターや商標、固有名詞については日本の著作権法では問題になる可能性があります。AICU編集部はオープンに公開されたモデル使用に関する責任は利用者にあるという立場で紹介しており、その使用や生成方法については十分注意することがあることを明記しております。」を追加。

東工大からアメリカで博士獲る!「つくる人をつくる」AICUならではの未来を予感させるクリエイター交流会 ロングレポート \#イベントレポート

· 約44分
しらいはかせ - Akihiko SHIRAI
Cheif Editor of AICU media

2025 年 1 月 18 日、全国の受験生の運命を分ける大学入試共通テストが開催されているその同日に、東京科学大学(旧東工大)田町キャンパス「INDEST」にて、生成 AI クリエイターの未来を予感させるイベントが開催されました。

先日速報版を出しましたが、今回は見どころ満載のロングレポートです! AICU編集部の hikonyan がお届けします。

AICU Creators Talk 4 レポート:東工大からアメリカで博士号を獲り博士を獲りながら「AIしずく」を生み出した青年が、母校で語る、AITuberとインタラクティブ技術の未来。

2025 年 1 月 18 日(土)、東京科学大学 田町キャンパス INDEST にて、「AICU Creators Talk 4 東工大からアメリカで博士獲る! AITuber x インタラクティブ技術の未来を共有します」が開催されました。本イベントは、 AITuber やインタラクティブ技術に関心のある方々を対象に、最先端で活躍するゲストの知見を共有し、参加者同士のネットワーキングを深めるイベントとして開催されたものです。 AICU Creators Talk (ACT) は今回で 4 回目を迎えました。

■過去の AICU イベントはこちら

今回のゲストは、 AITuber ブームの火付け役でもある『しずく』の開発や、 100 FPS 超えの超高速画像生成「Stream Diffusion」の開発で知られ、米国 UC バークレーで博士号を取得したあき先生(Kodaira Akio)氏。一時帰国の貴重な機会を捉え、出身校である東工大(現 東京科学大学)での開催となりました。会場には、 AITuber や AI 技術に関心を持つ学生や社会人など、濃密なメンバーが参加し、閉館時間直前まで熱気に包まれた時間を過ごしました。

17:00 オープニング:AICU Japan代表 しらいはかせより挨拶

AICU Japan & AICU Inc. 代表のしらいはかせより、 AICU の掲げるビジョン「つくる人をつくる」「わかる AI を届ける」「人がつなぐ AI」「AI 創造主が集うユニオン」と、 AICU の活動について説明がありました。

17:10 あき先生講演:東工大からアメリカで博士を獲るまで、そしてこれから

あき先生からは、東工大での学生時代から、UCバークレーでの博士課程、そして AITuber 『しずく』や「Stream Diffusion」の開発に至るまでの道のりが語られました。

<東工大時代>
東工大時代、元々はモバイルで動かせる人工筋肉など、ハードウェアの研究をやっていたというあき先生。ハードウェアの研究も楽しかったものの、実用化までに 10 年、20 年と時間がかかることから、もう少しスピードの早いところでやっていきたいと思い、ソフトウェアに関する研究のほうへ変更を決心しました。

ソフトウェアの研究では、2020 年〜 2023 年頃にかけて自動運転について研究していたそうです。ソフトウェアに関する知識が元々あったわけではなかったので大変だった、とあき先生は語ります。

< UC バークレーでの挑戦>
あき先生がアメリカの大学院へ進もうと思ったきっかけは、海外への進学に関する説明会に参加したことにあります。その説明会では、日本の博士課程とアメリカの博士課程の違いについて説明されていました。日本の博士課程は、就職しづらくなるなどと言われていますが、アメリカでは真逆で、博士課程はブランドであり、修了後の給料は上がるし、就職の選択肢は広がり、博士課程に在籍することで月 3,000 〜 4,000 ドルの給料が出て、学費も無料とのこと。日本とアメリカの違いに衝撃を受けたあき先生。これをきっかけに受験方法などの違いについても調べたそうです。アメリカでは、基本的な英語力は問われるものの、試験らしい試験はなく、論文数や有名な教授からの推薦、 GPA の高さといった総合的な評価で審査されます。あき先生は受験することに決め、無事に合格されました。

UC バークレーでの博士号取得への挑戦を始めたあき先生。海外の大学院は、日本の大学院と異なり、研究室一つ一つがスタートアップのようだと言います。国などから研究の助成金をもらい、そのお金で教員が学生を雇って成果を出そうとします。当然、成果が出せない学生はクビ、つまりは退学。途中で行われる筆記試験や口頭試問で 2 回落ちると退学。このように退学の危機が何度か訪れることもあるのだそう。それを乗り越えてきたあき先生は、海外の大学院はキャリアも開けて良い選択だったと語りました。

また、海外の大学院で重要なのは奨学金だとあき先生は教えてくださいました。 UC バークレーでは通常学費が年間で 6 万ドルかかります。ですが、奨学金をもらえていれば研究室からその学費を出す必要がなく、奨学金財団により優秀さも保証されているので、大学院に受かる確率も高まるのだそうです。あき先生の場合は、船井情報科学振興財団から奨学金をもらいました。

大学院進学にあたっては、何よりも「情報」だとあき先生は言います。過去に海外へ進学した先輩の話がまとまっている Web サイトなどでリサーチし、いつ相手方とコミュニケーションを取り始めれば良いか、いつ研究室訪問をしたら良いか、 GPA はどのくらい取れていれば良いかなど、情報を得ることが大事とのこと。

こんなにも日本の博士課程と海外の博士課程に違いがあるなんて驚きですね! 実際に博士号を取得されたあき先生だからこその貴重なお話を伺えました。

<AITuber『しずく』誕生秘話>
ここからは、あき先生が開発された AITuber 『しずく』のお話に。

「ドラえもん」などのロボットに元々興味があり、自分で人工知能を作りたいと思っていたあき先生。そのために、自動運転や画像生成モデル、言語モデルなどの研究をしていました。その中で生まれたのが、 AITuber 『しずく』でした。

『しずく』が YouTube 配信で初お披露目されたのは 2023 年 1 月のこと。配信では、リスナーが投稿したコメントをピックアップし、キャラ付けしたプロンプトで自動回答していきました。当時のリスナーからすると、 AI が自動で回答してくれる様はとても新鮮に映ったそうです。その後も何度か配信を行い、議論を進めていきました。

同月にバイノーラルの ASMR にも挑戦。音源がバイノーラルに聞こえるようにモデリングしたそうです。感情表現にも挑戦し、コメントの感情に対してどんな感情で返すか、プロンプトで判断して表情や返答の仕方に反映させたと言います。その他、歌ってみた動画やマインクラフトの配信、人間ではなかなか難しい 72 時間連続配信などにも挑戦したとのこと。

また、マルチモーダル(テキスト・画像・音声・動画など複数の種類のデータを一度に処理する技術)にも取り組んできたそうです。音声認識や画像認識を行うマルチモーダルな AI は、 2023 年当時ではまだ珍しかったとのこと。

YouTuberは技術とコンテンツが融合したものであるため、イテレーションを回すのが難しいとあき先生は語ります。どんなコンテンツが面白いのかはセンスが必要とされ、コンテンツをプロデュースする力があったとしても技術が伴わなければ難しい。ですが、 AITuber に取り組む開発者は、技術とコンテンツを持ち合わせている人々なので、今の AITuber の流れは今後も続くだろう、とあき先生は予想しています。

『しずく』の配信では毎回プロンプトを書き換えるのが大変だったと言います。モジュールごとに分けてノードベースに分けることでその手間を省き、もっとみんなが AITuber を開発しやすくしようと試みたあき先生。その過程で誕生したのが『かすみ』でした。音声データは声優にお願いして学習データを用意したそうです。

あき先生は、将来的には、各個人が AITuber を所有してインターネット空間上で AITuber 同士がコミュニケーションを取り、自分で好きなようにカスタマイズできる世界を夢見ています。『かすみ』もその一助となればとあき先生は考えてはいますが、『しずく』に対してなんだか浮気しているように感じてしまい(笑)、まずは『しずく』のロードマップを完結させることに注力しているとのこと。今後『かすみ』の活躍にも期待ですね。

<弟さんはNYUで音楽の研究>
『しずく』の配信で使うエンディング曲などの作曲はあき先生の弟さんが担当とのこと。弟さんはニューヨーク大学(NYU)で音楽、主にパーカッションなどを研究されているそうです。家族の連携もあっての『しずく』の配信ですね。

<「Stream Diffusion」開発>
『しずく』の開発を進める中で、自分の技術力、ソフトエンジニアリングに限界を感じ始めたあき先生。また、せっかくアメリカにいるのだから、世界をリードする研究に飛び込みたいと思い、画像生成モデルの研究にのめり込むことにしました。そこで開発に取り組んだのが「Stream Diffusion」です。 2023 年 11 月に開発し、論文発表や GitHub 上での公開に至りました。

「Stream Diffusion」はリアルタイムに画像を生成する AI ツールです。目指したのはよりインタラクティブな生成ツールでした。 1 秒間に 40 枚の画像を変換するようにしており、評価は上々。 GitHub 上での評価もまもなく 1 万スターに届くくらいだそうです。

「Stream Diffusion」のコミュニティの方々による開発も熱く、さまざまなデモ作品が公開されています。音波に合わせて画像が変化していく、新しいカタチの音楽のビジュアライザーや、 VR 空間上に鏡を作った人など、さまざまな作品を紹介しました。

<Meta AIでのインターンと今後の発表>
「Stream Diffusion」のヒットを受けて、あき先生は Meta 社でもインターンとして働くことに。そこでは動画生成 AI に関する研究に取り組みました。未発表の案件のため、詳細はお話しできないとのこと。この研究はアバターへの応用が期待されるもので、モデリング不要でリアルタイムにアバターを生成できる可能性があるようです。

最終的にあき先生が目指したいのは、魅力的なAIキャラクターの IP だそうです。海外発の AI キャラクターはいるものの、日本発の AI キャラクターはまだ一般に広がるまでの IP はないのが現状です。 AI キャラクターは技術だけでなくコンテンツ、ストーリー作りが大切だと考えているあき先生。リスナーがともに育てていくキャラクターを理想としているそうです。

また、現在の AI キャラクターに足りないものは「情報」だとも語ります。 VR 空間内に存在するキャラクターよりも AR で現実に合成されたキャラクターのほうが、より周りの現実の情報が伝わってきます。このように現実の情報をリアルタイムに取り入れながらキャラクターが育っていくのを目指したいということのようです。

他にもユーザのパーソナライゼーションも大切だと考えているあき先生。現在の AI キャラクターはプロンプトでのカスタマイズはできても、もっと根本にあるモデルのカスタマイズまでは実現できていません。そういったところを実現し、ユーザ一人ひとりごとにパーソナライズされたキャラクターの生成がエンタメとしても技術としても必要だろう、とあき先生は説明しました。

今後の AI キャラクターの発展にとてもワクワクするお話でしたね。

17:50 対談:AITuberの可能性とインタラクティブ技術の未来&海外進学なんでも相談会

あき先生による発表のあとは、あき先生としらいはかせによる対談が行われました。対談では、 AITuber の可能性とインタラクティブ技術の未来について、熱い議論が交わされました。

<二人のキャリアと近年のAI研究環境>
改めて、しらいはかせから「『しずく』を開発した頃のあき先生は何者だったんですか?」と問いかけました。

あき先生は、 UC バークレーの学生として自動運転の研究をしていたものの、研究室内でいろんなことがあって研究が楽しくなかったと言います。そのときに、今の研究以外のことをやりたいと思い、 ChatGPT に触れてみたところ「これ本当にこんなにできるの?」とびっくりすると同時に、もう作りたいっていう欲求がどんどん出てきて、一気に創作意欲が爆発して短期間で一気に『しずく』を作り上げたとのこと。これが 2023 年の出来事でした。

その頃のしらいはかせはと言うと、研究所でグラフィックスに関する研究をしていたと語ります。 2022 年 8 月の Stable Diffusion の登場を受けて、生成 AI の波が来ると予感。その当時の AI 技術はオープンソース化されていませんでした。 MidJourney の登場でようやく誰でも AI を使える環境になり、画像生成をしていたそうです。その後に Stable Diffusion がオープンとなり、 Stability AI と 4 社が集まってオープンソースとして各社 AI ツールをリリースし、今のように AI がさまざまな活用が進められる世界となりました。しらいはかせは「世界はもう完全にもう溶けてなくなった瞬間ですね」と話します。

AI 関連の研究環境はとにかくスピードが速いと二人は言います。 3 ヶ月単位で動かないとアメリカや中国がその研究テーマに取り組む可能性があるほか、研究背景にある情報などもすぐにアップデートされていくため、数年後までの研究計画を立てて研究に取り組む学生にとっては可哀想な状況にあるようです。

AI 関連の研究は、その進展のスピードから突然プロジェクトが終了することも。その一つの救う方法としてオープンソースとして公開することが増えている、とあき先生は言います。また、 3 ヶ月以内に学会や論文投稿で発表しておくように学生に指導するのが大切なことであり、最終的にはとにかくオープンソースとして公開する。指導者はそういう指導をすることが大切なのだと、ここ5年の間でしらいはかせは学んだと話しました。

< Meta 社のAI研究のスピードとリソース>
話は Meta 社を例に弾んでいきます。 Meta 社の研究部門では、リアリティラボにおいて多くの分野で研究が行われており、 SNS やゲーム配信に関連する研究が行われているそうです。特に、ゲーム配信者の行動やコメントの分析に関する研究成果は非常に価値があるものの、後続の研究が続かないとのこと。その理由は、研究が優れすぎて他の人が同じことを行えなかったり、研究成果が事業に活用されるあまり、論文として公開されないことにある、としらいはかせは話します。

Meta 社では、プロジェクトごとに試行錯誤を行っていますが、必ずしもすべてが成功するわけではありません。しかし、 Meta 社全体で見れば、多くのプロジェクトが成果を上げています。また、 Meta 社全体で見ると、リスクを取ることは可能で、スタートアップが動きやすい状況もあるという話がされていました。

ここで、しらいはかせが「GPU のメモリってどれぐらいのものを彼らは使える?」とあき先生に尋ねました。プロジェクトによっては NVIDIA の生成 AI 向け GPU である H100 が 6,000 台使われているとあき先生は答えました。これにはしらいはかせも「 1 台買うのも大変なのに!」とびっくり!

あき先生は、海外と日本の格差についても話しました。「例えば日本だとソフトバンクとかが保有している GPU の数が全体で大体 6,000 台とかなんですよね。でも、 Meta 社はその一プロジェクトの一部分で、それが使えるっていうのはやっぱり結構そこの差は相当ですね。そういった形で大胆に使えて。でも、それぐらいの形でやらないと研究スピードが追いつかない」とのこと。

<研究と学術発表の重要性>
話題は徐々に学術発表の話に。しらいはかせは日本と海外のPhDの学生の差について次のように語りました。「構想自体は一年ぐらいかけてやっている。PhDの学生って、それこそ 3,000 ドルとか 4,000 ドルとかの給料もらっているから、日本円で換算すると、その人たちって最低でも日本円で 50 万円から 60100 万円ぐらいのレンジの開発者なわけですよね。 で、その人に一ヶ月かけて論文書いていいよって言ってあげられるっていうのがまずやべえなって」。これにはあき先生も同意した様子でした。しらいはかせは続けて「実際いくらぐらいの価値ですです? トップカンファレンス、 CVPR (コンピュータビジョン分野に関する世界最高峰の学会の一つ)一本通したら の?」と尋ねました。CVPRは コンピュータビジョン分野に関する世界最高峰の学会の一つです。あき先生は「その価値をプライスに換算するのは難しいですね」と困惑しながらも「Meta 社などのインターンではそういうところに一本以上の論文を採択されていないとできない」と答えました す。

研究予算についても、しらいはかせは「日本の今のその国立大学とかも、それこそ東工大レベルのところでも研究室によっては結構お金がないんです金ないんですよ。お金があるところでもすごくスケールがちっちゃいですよね。例えばコロナ禍前後とかで言うと、コロナのときは海外遠征予算が余りまくってしまったけど、いまは真逆。国際会議に出そうと言うと、先生たちが『やっぱり予算…』って考えちゃうんです」と語りました。

また、論文をトップカンファレンスに通すことは、その金額や経済効果に見合う価値があると認識されていますが、単に論文を通すこと自体の価値は以前ほど大きくなくなりつつあります。論文よりも実際に役立つ技術やプロダクトを作ることが重要視されつつあるそうです。ArXiVのようなオープンアクセスできるプレプリントサイト、SNSやGitHub上でバズるほうが勝ちというような流れも正直ある、とあき先生は話しました。

<『しずく』誕生秘話にしらいはかせが思うこと>
しらいはかせは「『しずく』をリアルタイムで企業の研究所のリーダーとしてみたときは『悔しいな!』と思ったけど、今回直接、誕生秘話を聞いて、家族の支えもあって誕生できたものだとわかって良い話だと思った」と話しました。

あき先生にとっても、「『しずく』の誕生は人生の大きな転換点だった」と語りました。これは運があったからこそだ、とあき先生は言葉を続けました。

<学部生の頃のあき先生>
しらいはかせが「学部生の頃はどうだったの?」と問いかけました。あき先生曰く、学部 1 年生の頃からアメリカに留学しようと考えていたそうです。「ずっとなんか留学、留学って当時から言っている奴で、意識高いっていうみたいな感じで(笑) 」

この話を受けて、しらいはかせは自分の教え子で留学した学生の話をしました。
長野光希さん (東京工業大学・社会理工学出身/現・NVIDIA)
https://x.com/o_ob/status/1855811364385931592
https://x.com/NVIDIAJapan/status/1863499561215340558
https://asia.siggraph.org/2024/presentation/?id=IS_110&sess=sess308&linkId=100000314750295

しらいはかせ「当時、船井情報科学財団による奨学金が 2000 万ぐらいいただけるというお話で。 2000 万って高いと思うじゃないですか。ところが、向こうで学生をやろうと思ったら、車を持っていないと生きていけない、あと保険に入ってないと生きていけない、などなど全然経済が違いました」

あき先生も思い出話をしました。
あき先生「家賃も高いんです。 家賃がなくて相当ボロボロのところに住んで。月 1,200 ドルとかなんで。本当にボロボロですよ。トイレも共用で、シェアルームでリビング住みの月 1,200 ドルなんで」

けれど、明確な夢があったわけではなく、「ロボットを作れればいいな」という思いだけだったと言うあき先生。夢に向かって逆算的に物事を考えて生きる人たちに憧れ、その可能性を高めるように生きようと海外の大学に行った、と言葉を続けます。結果、運良く AI という新たな技術に出会い、『しずく』を開発したことで、今は人生の目標ができたそうです。

あき先生「『しずく』をIPにしたい。そのためにできることを全部やっていきたい」

<日本と海外における著作権の違い>
話題は再び日本と海外の違いの話に。しらいはかせは「日本の人たちを日本の中で見ているのと、西海岸から日本を見ているのって、どうアスペクト(視点/縦横比)が違うのか知りたい」と言いました。あき先生曰く、西海岸の世界だと基本的にできないことはやっていく点が日本と異なるだろうとのこと。
あき先生「できないと思われているような難しいことでも、やりたいことをやっていく、挑戦していく」

日本については次のように説明しました。
あき先生「日本は結構『ちょっと引くところ』があるじゃないですか。それだけじゃなくて、しかもすごく真面目なんですよ。データセットに関しても、全てに関しても本当にちゃんと一個一個クリアしようとしていて、本当に真面目でいいことなんですけども。 つまり、『ただでさえそうする人たち』がさらに『真面目に』っていう芝居を入れているので、 4 段階ぐらい遅れざるを得ない。 例えば、中国のほうがリソースもあって、開発する人たちがもう世界で活動していて。しかも、著作権無視みたいな感じで、そういう人たちがで良くないんですけども。 でも、結果的に出たら戦わざるを得ないんですよ」

著作権の話に、しらいはかせも心当たりがありました。以前、査読を引き受けた漫画関係の機械学習研究の論文で、AI学習に用いられたデータセットに「Danbooru」というサイトからスクレイピングされた画像が大量に使われていて、「日本の漫画分野の著作権感覚では違法では」のがあったそうです。そのときは「著作権的に 査読不可能」 と学会側に返戻したものの、論文は通ってしまい、その後その研究が他の論文に引用されるなど、問題が拡大したと感じていました。「『学会として出版したときに問題になるのでは』という意見は、『既にネットにアップロードされたものだからフェアユース』という判断になってしまいました」と思い起こします。あき先生は「ミクロ的にはそういう NG を出すという動きをするべきです。ただ、マクロ的にはそういう流れが起きたら止まらないっていうのが現実なので」と話しました。

<メタヒューマンと IP >
メタヒューマンに関する研究についても、「業(ごう)の深い問題」が AICU編集部に持ち込まれている、としらいはかせは話しました。開発者が「自分が開発したと言えないメタヒューマン」や、開発者や本人の知らないところで勝手に売買されたりチューニングされたりしてしまう問題とのこと。しらいはかせは、『しずく』は、オープンな技術と学術、そしてオリジナル IP をあき先生自身が持っているから自分で運用を決められるのが「運が良い」と感じるそうです。

あき先生も納得した様子で、 IP の外側だけを差し替えた場合について話を続けました。
あき先生「このワークに関しては、例えばすでに存在するキャラクターを持ってきたとしても話が違ってきて。その有名キャラクターっていうのは『こうあるべき』って設定があるんですよね。それはすべてなぞらなきゃいけないですよ。完璧になぞりつつ、独立性を出すんですけども、それだと『キャラクターを育てる話』ではなくて、『いかに壊さないか』っていう『演じきる話』なんですよ。でも、僕の AITuber の場合は、全ての体験自体がキャラクターの背景になるんです。それそのものが IP になるんです」

また、次のようなお話もありました。
あき先生「『しずく』の話を一般的な話から先にすると、 AI キャラクターを会社として作る場合って、同じようにたぶん開発者をあんまり言わないほうが良いんですよ。開発者は「黒子」であって。プロデューサーは別にアイドルの隣に立ってしゃべらないじゃないですか。プロデューサーはあくまでもそのアイドルキャラクターのほうを出していくんですけども、『しずく』はもともとあき先生っていうキャラクターがもう背景に入っているので、二人三脚でやっていこうっていうのは、今後も決めていて。そういった開発者込みで、その成長の過程を楽しんでくれるとか、人々に届けるような相手にしたいなと思っています」

<あき先生の今後の展望>
しらいはかせはこれまでの話のまとめとして「PhD(博士学位)獲れたら、この後どうしていきたいですか? 3 年後、 5 年後、『しずく』が小学校に上がるぐらいの年になるまでに。 何を実現していきたいですか?」と問いかけました。

あき先生としては次のように考えているそうです。
あき先生「 『しずく』をやっていくこと、これは確定していることです。 ただ、そのやり方にはやっぱりかなりものがあって、例えば長期的に本物をやっていくためにお金が必要なのは間違いないんですよね。でも、そのお金をマネタイズを所属のほうでやると、また話はずれてきちゃうんですよ。ストーリーから横目が出てきてしまう。僕は今『しずく』でサスティナブルマネタイズをするというのは考えてはないです。なので、お金のエンジンのほうは、いわゆる本職をちゃんとやっていこうと思っています」

実は、あき先生は 2 月にアメリカのとある動画生成 AI 会社に入社予定とのこと。今後のご活躍がますます楽しみですね!

18:50 ライトニングトーク&交流会:参加者全員が主役!

最後に、参加者全員によるライトニングトークと交流会が行われました。

ほぼ全員 LT : 参加者のほとんどが、自身の活動や研究内容、 AITuber への思いや成果、技術などを発表し、会場は大いに盛り上がりました。

熱気溢れる交流会: 発表後も、参加者同士の交流は続き、新たな繋がりやコラボレーションが生まれる予感に満ちた時間となりました。あき先生が本当に AI 『しずく』によって、そして AI 『しずく』を大切に考えていることで人生を豊かなものにしていることが感じられました。さらに参加者どうしの交流もしっかりと行えて「参加者全員が前のめりで、本当に楽しかった!」という声が、多くの参加者から聞かれました。

さくらインターネット 角さん

ManmaruAI よしかいさん @yoshikai_man


「デカコーン」になる宣言!

そして Unity から直接起動する最新の「AI まめひなた」デモを披露

その他、オフラインでしか味わえない、最新・最先端・まだまだ秘密の日本 AI クリエイターたちの最新の活動をあき先生に紹介する形でライトニングトークが実施されました。これは尊い!

まとめ

「AICU Creators Talk 4」は、AITuberとインタラクティブ技術の未来を垣間見ることができる、非常に刺激的なイベントでした。あき先生による講演での体験談は、AITuber に関心がある人だけでなく、海外への大学院への進学を考えている人にとっても非常に有益だったのではないでしょうか(この記事がお役に立てることを祈っています!)。また、あき先生としらいはかせによる対談では、日本と海外の AI 研究に対するスピード感・進め方の違いに衝撃を受けました。

お二人のお話はかなり深い話まで及んだため、誌面に載せられなかったお話も。気になった方はこのような機会を次こそはぜひお見逃しなく!

次回の AICU クリエイタートーク(ACT5)は 2 月 8 日(土)、内容は「生成 AI 時代のプログラミング最先端(仮)」と題して「GASSISTANT」開発者の横田さんと、「Pyxel」開発者の北尾さんをお招きしてワークショップを開催いたします。

大人気、予約必須のイベントになる見込みですので、Techplay や X@AICUai のフォローはお忘れなく!

試験にでないLoRA作成講座(2) LoRAのキャプションで遊んでみよう!

· 約24分
小泉勝志郎 - Koizumi Katsushiro
株式会社テセラクト代表取締役 - シニアプログラミングネットワーク代表

AICU media読者の皆様、自称LoRAの魔術師の小泉勝志郎です。LoRAの魔術師と自分では思っているけど、誰もそう言ってくれないので自分で言うようにしています。

前回は漫画家うめ先生の画風LoRAを作成してみるという、第1回にしては基本的ではなく応用的な内容でした。今回は前回よりももっと基本の部分です。LoRAのキャプションを工夫して遊んでみようという内容です。結構面白い使い方ができるんですよ!

そして、今回の内容はこの連載のベースとなる内容です。前回そして以降での連載の内容を利用したテクニックになっています。以前別のメディアで書いたものをよりブラッシュアップしたものです。

まずは結論を

結論を最初に書いておきます。

  • キャプション=生成プロンプト
  • 素材画像間の違いを書く

LoRAを作成するときにはその画像を説明するキャプションというファイルを作成します。前回の記事ではWD Taggerという画像の説明を作成してくれるツールの紹介も行いました。

キャプションは画像の説明ではあるのですが、より正確に書くとその画像をどういうプロンプトで生成したいのかを書きます。そして、あまり触れられないのですが画像間のキャプションの違いも重要なんですよ!

この結論の時点でネット上にあるLoRA解説と結構言っていることが違うかもしれません。さて、なぜこのような結論になるのか?そこを見ていきましょう。
詳細は後述しますが、キャプションに気を付けないとこの画像のように、想定していたのとは違う画像が生成されることも起こりえるのです。

このセーラー服姿のおばあさんは一体?キャプションを工夫することでトリック的な使い方もできるんですよ!

今回の記事ではフォト系モデルであるBRAV5を用いています。現在BRAV7まで出ていますが、BRAV5の画像の方が好みの顔に近いからです!

また、現在はPony系やillustrious系等のSDXL系にStable Diffusionの主流が移ってきていますが、今回はStable Diffusion1.5系列であるBRAV5であえてやります。今回の記事のトリック(?)はSD1.5系の方がきれいに結果が出るんですよ。ただ、今回の記事の内容はStable Diffusion1.5系列ほどではないにせよ、SDXLのモデルでも同じく成り立ちます。

以降の検証は kohya_ss gui を用いたものです。設定はキャプションだけ .txt へ変更して、それ以外は kohya_ss gui のデフォルト値のままで使用しています。

キャプション=生成プロンプト

LoRAで画像を学習させる際に重要になるのが、その画像がどういうものなのかを説明しているのがキャプションファイルです。各画像に対応するように同じファイル名で拡張子を.txtにしたテキストファイルを作るというのがよく用いられる方法です。

その画像がどういうものなのかを説明しているのであれば、当然生成するプロンプトを書くべきとなるのは当然ですよね。

まずは実際にやってみます。黒髪ロングで笑顔がすてきな乙姫ちゃんというキャラを作ってみます。以下が学習に利用した画像です。この画像自体もAIで生成したものです。


顔の雰囲気が似ているものを選びました。すべて黒髪ロングです。

各画像にキャプションを付けていきます。乙姫ちゃんを呼び出す単語(トリガーワード)は「otohime」とします。キャプションはすべてトリガーワードの「otohime」が先頭です。細かい説明は後でするとしてまずは一つずつ見ていきましょう。

1枚目のTシャツ&デニムの画像のキャプション。
otohime, white t-shirt, denim pants, navel, standing, arm support, table, window, indoors, sunlight, leaning back

2枚目のセーラー服のキャプション。
otohime, school sailor uniform, blue neckerchief, blue sailor collar, blue pleated skirt, day, from side, from above, looking at viewer, road, short sleeves, tree, white shirt

3枚目の黒い着物姿のキャプション。
otohime, black kimono, blurry background, day, looking at viewer, from side, outdoors, upper body

4枚目の赤いドレス姿のキャプション。
otohime, closed eyes, open mouth, red dress, grey belt, black background, upper body

基本的にどんな場所でどんな格好をしてどんな表情なのかを、この画像を生成するにはどういうプロンプトを入力すれば良いのかを考えて記述しています。
さて、これでLoRAを作成してみます。今回はotohime_bra_v1という名前にしてみました。

キャプションのプロンプトで元画像を再現

1枚目のキャプションに書いたのと同じプロンプトにLoRAを呼び出す<lora:otohime_bra_v1:1>を追加して実行してみます。

あれ?元画像とほぼ一緒では?比較してみましょう。

そうなのです。多少違いはありますが、ほぼ一緒と言って良いくらいです!

単に再現するだけではなく衣装の変更もできます。


この衣装を変更したプロンプトはこちら。

<lora:otohime_bra_v1:1> otohime, plaid apron dress, standing, arm support, table, window, indoors, sunlight, leaning back, masterpiece, best quality

t-shirt, denim」を「plaid apron dress」に変更しました。元の構図やポーズの影響が大きくはありますが、その点についてはまた別途記事を書きます。

このキャプションをプロンプトにして再現できるというのを私は重視しています。
実はLoRAの精度を落としてしまう画像もあるのです。それを見つけるのに役立つのですね。次はそこを詳しく見ていきましょう。

素材画像間のキャプションの違いを使ってLoRAに裏技を仕込む

LoRAにはトリガーワードという対象物を呼び出す単語があり、今回はそれを乙姫(otohime)としていました。しかし、実際はトリガーワード以外もキャプションに書かれたすべての単語がその画像を学習します

素材の赤いドレスの画像と背景と服装、格好は共通しているけど、年齢が3倍くらいになった画像を追加してみましょう。そして、年齢以外に箱を持っているという違いもあります。この違いをのあとで利用します。

ところで、この画像もAIで生成しました。そして、実は先ほどの素材に入れた赤いドレスの画像はこの画像をinpaint sketchで加工して箱を削除&若い姿に変更したものなのですよ。年齢と箱と煙以外はまったく同じにしているんです。


この画像のキャプションを次のようにします。

otohime, holding box, closed eyes, open mouth, red dress, grey belt, black background, upper body

年齢の違いは一切キャプションに書かず、箱を持っている(holding box)という点のみを赤いドレスの画像のキャプションに追加しました。若い方の赤いドレスの画像&キャプションも残しておきます。

この状態でLoRAを作成します。では、新たに作成したLoRAでセーラー服で箱を持っている画像を作ってみましょう!すると……。


ギャーーーーーーーーーー!

何ということでしょうか!セーラー服を着た乙姫ちゃんが、髪の毛も真っ白になり肌の水気も飛んじゃいました!まあ、これがやりたいから乙姫ちゃんという名前にしていたんですけどね。玉手箱みたいな老化ウェポンを何故浦島太郎にそんなものを渡してるんだって!浦島太郎の気持ちを思い知ってほしいものです。

それはさておき、これが素材画像間の違いをキャプションに書くという理由なのです。若い方の赤いドレスのキャプションと年齢が上がった姿のキャプションの違いは「holding box」のみ。そのため、素材画像の白髪や肌とかが「holding box」に入ってしまったのです。箱が玉手箱になってしまっていたのでした。ただ、煙までは再現されていないので、完全吸収とまでは行かないんですけどね。

まあ、これを利用すると特定の行動をさせるとおじさんになるLoRAも作れます。LoRAに裏技を仕込めちゃうのです。

画像が違ってキャプションが同じだと特徴が混ざる

今度は若い女性の赤いドレスの生成画像と全く同じプロンプトにして再度学習させてみます。若い姿と老けた姿を全く同じキャプションにしたLoRAで作成し、そのキャプションで再現した赤いドレスの乙姫ちゃんはこんな感じになります。

黒髪と白髪が混在していますね。顔立ちも若いとはいいがたいものに。違う画像でキャプションを同じプロンプトにすると2つの画像は混ざってしまうのです。

赤いドレスのプロンプト以外でも試してみましょう。「otohime, street」で作成してみます。

白髪にはなってないけど、箱を持ってないのにちょっと地球の重力に影響を受けてしまったやや老け顔が出てきちゃう!赤いドレスの画像以外にも影響が出てしまっています。

先ほどの例は「holding box」以外はほぼ同じ画像&キャプションがあることで「holding box」に白髪頭の情報が集中して学習されていました。しかし、「holding box」を削除することで、otohimeにも画像素材の人生経験を重ねた雰囲気が学習されてしまっているからです。

そして、老けた乙姫ちゃんと若い乙姫ちゃんと両方出せるようにするには、老けた乙姫ちゃんのキャプションでは若い画像では「girl」のところを「old woman」にすると良いです。もともと「old woman」で高齢女性が学習されているため、画像間の老けているという違いも「old woman」が吸収してくれます。

まとめるとこうです。

  • 画像間の共通点はキャプション中の共通するタグに学習される
  • 画像間の差異はキャプションが異なるところタグに学習される
  • 画像に差異があるのにキャプションが同じところは混ざる形で学習される

前回のうめ先生の画風LoRAでキャプションを付ける際に注意することとして書いたものですね。


共通するところが学習されるというのは意識している人も多いと思いますが、画像間の差異がキャプション中の違っているタグに学習されるというのは意識している人は少ないのではないかと。

でも、AI画像生成で水着にしたら画像の背景が海になっちゃったという経験のある人も多いと思います。それと同じようなものです。ここを気を付けないと、髪型を変えると太ったりが発生したりするわけです。

具体的なタグ付けについて

そもそも先ほど記述したキャプションをどのように作っているのかについて、ここからは説明していきます。基本的にはTaggerというツールを用いています。
https://huggingface.co/spaces/SmilingWolf/wd-tagger

リンクを飛ぶとこのような画面になります。


ここで画像をドラッグするとタグを解析してくれます。

「General Tags Threshold」は画像から解析されたタグを出す際の閾値(しきいち)です。0~1の間で設定します。

こう書くと難しそうですが、1に近いと確実に当てはまるようなタグだけになり、0に近いと男のキャラにも1girlと出てしまうような当てはまっているかどうかわからないものも出てくるようになります。私はとりあえずタグ候補をたくさん見たいので0.1~0.15にしています。

「Character Tags Threshold」は既存キャラクターのタグを出力する閾値(しきいち)です。既存キャラは出てこなくてよいので1にします。

ここでSUBMITボタンを押すとこのようにタグが出てきます。

Taggerを信用しすぎない

さて、このTaggerによる解析結果ですが、あまり信用しすぎてはダメです。

というのも、これはイラスト用作画モデルでのタグが出てきているんですよ。フォト系では使えないものが混ざっているということです。

例えば、「cowboy shot」。馬に乗ったカウボーイのイメージで頭から腿までの構図にするタグですが、基本的にはイラスト系モデルでしか使えないのです。BRAV5で試してみましょう。

カウボーイの格好をしたお姉さんになってしまい、頭から腿までという構図になっていません!BRAV5では「cowboy shot」は効かないんですよ。フォト系でも「cowboy shot」が効くモデルはありますが、イラスト系モデルがマージされているモデルで効くようになっています。実はこれは「booru tag」と呼ばれるDanbooruというサイトで使われるタグなのですよ。SDXLではPony系フォトモデルのように「cowboy shot」等の「booru tag」が効くフォト系モデルもあります。

ちなみに「cowboy shot」的に頭から腿までの画像を出力したい場合は「face, thigh」と表示する部位を入れると良いです。

ちなみにBRAV5の場合、512×768で生成すると、特に指定しなくても「cowboy shot」的構図になることが多いので、先に出した1枚目は「cowboy shot」的構図ですが特に指定を書いていません。

さて、「どれがフォト系で効いてどれが効かないのかわからんよ!」という方も多いと思います。これは簡単で出力されたキャプションをプロンプトにして生成してみれば良いんですよ。前回のうめ先生の画風LoRAのときにもやりましたね。

そして、重要なのがこれ。LoRAのベースとなるモデルで効果がある単語を書くとある程度その特徴となるところを吸収してくれます。しかし、そのモデルで効果がないタグをに書いた場合は新規の単語として学習されるのと同じなのです。

「それの何が悪いの?」と思うかもしれませんが、トリガーワードと特徴が分散しちゃうのです。トリガーワードの効果が弱まるんですね。なので、ベースモデルで効果のないタグは書かないようにしましょう。

全画像に共通するタグはトリガーワードのみにする

キャラクターLoRAを作る解説記事では「キャラクターの特徴はキャプションに入れないようにする」ということがよく書かれています。これは画像の共通部分がキャプションの共通部分に学習されるため、キャラクターの特徴が他のタグに吸収されてしまうからなのです。

先ほどタグの共通箇所に画像の共通箇所が学習されると書きましたが、この共通というのは当然2枚の間だけではなく、学習画像全体に対してのもの。

結構やりがちなのが、トリガーワード以外に全キャプションファイルに同じタグを書いてしまうというもの。Taggerを付けるとやりがちです。全画像に「smile」と入っているのに気づかないとか。

例えば以下のような全画像が紫髪で眼鏡をかけた女性の画像を学習させるとします。

今回トリガーワードは「abare」にしました、トリガーワード以外に眼鏡を意味する「glasses」も全キャプションファイルに入っているとどうなるか?全画像のキャプションを「abare, glasses」にしてみます。

この画像を学習させたLoRAを用いて、トリガーワードなしの「glasses」だけで生成してみると……。

なんと髪の毛が紫色になってしまいました!紫髪という特徴まで「glasses」に吸収されているのがわかると思います。

まとめ

今回の内容をまとめると以下の通りです

  • キャプションファイルにはその画像をどういうプロンプトで出すのかを書く
  • 画像の共通箇所はキャプションの共通タグに学習される
  • 画像間の違いはキャプションの違いの箇所に学習される
  • 画像間に違いがあってキャプションが同じだと特徴が混ざって学習される
  • ベースとなるモデルで利用できないタグは書いても学習精度が落ちるだけ
  • 全キャプションファイルに共通して書くのはトリガーワードだけにする

そして今回作成した乙姫ちゃんのLoRAも公開しました。箱を持つと老けるのを楽しんでください!白髪にするには「black hair」をネガティブに書くと良いです。
乙姫ちゃんLoRA

次回はLoRAの中でも特に人気のキャラクターLoRAを精度高く作る方法を紹介します。

AI画像生成年賀状コンテスト 結果発表!

· 約4分
AICU Japan
AICU media editors
しらいはかせ - Akihiko SHIRAI
Cheif Editor of AICU media

AICU主催「AI画像生成年賀状コンテスト」が開催されました。

https://note.com/aicu/n/nc251acbd6b5c

【目的】一人でも多くの人々にAI画像生成の魅力が伝わること

【参加方法】指定されたハッシュタグ「#AI画像生成年賀状 #AICU #AIArt 」を含めたXのポストを行い、締め切りまでにエントリーフォームにて必要事項を提出。

【使用可能ツール】有償無償を問わず、すべての画像生成ツール、モデル、サービスを使用可能です。もちろんAdobe等のツールでの加筆作業も問題ありません。

【エントリー期間】 2025年1月3日~2025年1月20日23:59まで

たくさんのご応募ありがとうございました!

AI画像生成年賀状コンテスト2025作品一覧

ヒント

インタラクティブな投稿を可能にします