Sakana AIより「日本の美を学んだAI」が公開
2024年7月22日、日本の経済産業省(METI)傘下のNEDOやNTTドコモ・ベンチャーズ(NDV)、KDDIが出資し、推定45億円を調達している AI研究開発スタートアップの「Sakana AI(サカナAI)」(東京都港区)が、「日本の美を学んだAI」を公開しました。
このリリースの要点は以下の通りです。
Evo-Ukiyoeは、日本語のプロンプトを入力すると浮世絵風の画像を生成します。風景や着物姿の人々など、浮世絵によく取り上げられる題材については、実物の浮世絵に近い品質で生成できます。
Evo-Nishikieは、単色摺の浮世絵(墨摺絵等)を入力すると、多色摺の浮世絵(錦絵)風の画像を生成します。墨一色で印刷された江戸時代の本(古典籍)の挿絵をカラー化したり、多色摺の錦絵を別の色に変換して出力したりする目的にも利用できます。
Evo-UkiyoeとEvo-Nishikieの学習データセットには、立命館大学アート・リサーチセンター(ARC)所蔵浮世絵作品のデジタル画像24,038枚を利用しました。
Evo-UkiyoeとEvo-Nishikieが、日本の伝統文化の魅力を世界に広めるとともに、教育などへの活用や古典籍の新しい楽しみ方など、多くの人々に活用されることを期待しています。
HuggingFace Spacesでのデモとモデル
残念ながらHuggingFace SpacesでのデモはGPUが取得できないため、AICU media編集部での十分な動作確認できていませんが、 Evo-Ukiyoeは、入力した日本語プロンプトに沿った浮世絵風の画像を生成することができ、Evo-Nishikieは入力した単色摺の浮世絵(墨摺絵等)を日本語プロンプトに沿って多色摺の浮世絵(錦絵)風に変換した画像を生成することができるようです。
編集部での実験例
先行して公開されている日本特化の高速な画像生成モデル「EvoSDXL JP」は動作しています。非常に高速です。
担当した研究者の方々
開発者
カラーヌワット・タリン(Sakana AI)
シーン誠(Sakana AI)
今宿祐希(Sakana AI)
協力者
赤間亮(立命館大学アート・リサーチセンター)
北本朝展(ROIS-DS人文学オープンデータ共同利用センター/国立情報学研究所)
「日本古典籍の挿絵をカラー化」として、大学共同利用機関法人 情報・システム研究機構(ROIS: Research Organization of Information Systems)により、「絵本玉かつら Evo-Nishikieカラー化」が公開されています。
オリジナル画像
Evo-Nishikieカラー化画像
テキストから画像への拡散モデルに対する技術としては「DPO-SDXL」と呼ばれる技術が使われているようです。直接嗜好最適化 (Direct Preference Optimization: DPO) は、人間の比較データを直接最適化することで、拡散モデルをテキストの人間の嗜好に合わせる方法です。2023年11月に「Diffusion Model Alignment Using Direct Preference Optimization(直接嗜好最適化を使用した拡散モデルの調整)」として論文化された技法です。
興味深い Sakana AI の HuggingFace
学術・文化的な古典日本文化の貢献の横で、HuggingFaceには「Magicoder」といった小サイズのLLMも公開されています。
今後も様々な先端技術の公開が発信されると想像します。