【超入門】Stability AI APIの革新的機能(2)Edit APIの活用

AICU Japan

2024年10月6日 23:47

この記事では、Stability AI APの革新的機能「Edit API」について解説します。

おさらい：プロンプトの文法

まずはプロンプトの基礎から始めたい！という場合は、
合わせてこちらの記事をご覧ください！

「プロンプトの文法」編で、こんなことがわかる！

Stability AI APIとは？
Stability AI APIの種類と特徴・構成
プロンプトの文法基礎
[機能紹介] Generate APIとは？
[機能紹介] Generate APIよりUpscale機能のデモ

前回はEdit APIからInpaintとOutpaintを紹介しました。

Stability AI APIの種類と特徴・構成

「プロンプトの文法」編でもご紹介したように、Stability AI APIの画像生成系の機能は2024年10月現在、4つの機能に大別されています。

「Generate」：いわゆる「TextToImage」です
- プロンプト（テキスト）によって画像生成を行う
- 現在6つのモデルが提供されている

「Upscale」：高解像度化
- ベースとなる画像を入力し、そこにプロンプト（テキスト）で指示を追加し画像生成を行う
- 現在｛Creative, Conservative｝という2つのモデルが提供されている（加えて、Standardがcoming soonとして予告されている）
「Edit」いわゆるImageToImageです
- ベースとなる画像を入力し、そこにプロンプト（テキスト）で指示を追加し画像再生成を行う
- 現在｛Search and Replace, Inpaint, Outpaint, Remove Background, Erase Object｝5つのモデルが提供されている
「Control」こちらもいわゆる ImageToImage です
- ベースとなる画像を入力し、そこにプロンプト（テキスト）で指示を追加し画像再生成を行う
- 現在｛Sketch, Structure, Style｝3つのモデルが提供されている（加えて、 Recolorがcoming soonとして予告されている）

今回扱うSearch & Replace、Erase、 Search and Recolor、Remove backgroundは、このうちの「Edit API」に当たります。

Edit APIの6つの機能

Edit APIのAPIリファレンスはこちらから確認できます。

公式のAPIリファレンスによると、
Edit機能は「既存の画像を編集するためのツール」です。

全部で5つのEdit機能が公開されています。

Erase Object
- 画像マスクを必要とする機能です
- 画像マスクを使用して、元画像の汚れや、机の上のアイテム等の不要なオブジェクトを削除します
Inpaint
- 画像マスクを必要とする機能です
- 画像マスクを使用して、指定された領域を新しいコンテンツで埋めたり置き換えたりすることで、画像をインテリジェントに変更します
Outpaint
- 画像に追加のコンテンツを挿入して、任意の方向のスペースを埋めます
- 画像内のコンテンツを拡大する他の手段と比較して、
  Outpaint機能は、元の画像が編集された違和感を最小限に抑えます
Search and Replace
- 画像マスクを必要としない、特殊なバージョンの修復機能です
- 画像マスクの代わりに、search_promptに置換対象をテキストで指定します
- この機能は、search_promptに指定されたオブジェクトを自動的にセグメント化し、promptで要求されたオブジェクトに置き換えます
Remove Background
- 画像から前景（背景に対して、手前に位置する要素）を正確に分割し、背景を削除します
- 結果として、前景を残し、背景が透過された状態の画像が得られます
Search and Recolor
- 画像内の特定のオブジェクトの色を変更する機能を提供します。このサービスは、マスクを必要としないインペインティングの特殊バージョンです。自動的にオブジェクトをセグメント化し、プロンプトで要求された色を使用して再カラー化します。

Search & Replace機能とは？

公式が提供しているGoogle Colabでは次のように例が紹介されています。

Search & Replace機能サービスは、マスクを必要としないインペインティングの特殊バージョンです。ユーザーは「search_prompt」を使って、置き換えたいオブジェクトを簡単な言葉で特定することができます。サービスは自動的にオブジェクトを分割し、プロンプトで要求されたオブジェクトに置き換えることができます。

実際にSearch & Replaceを使ってみよう！

ここからは、公式が提供しているGoogle Colabを使ってデモを行なっていきます。

このColabへのアクセス、初期設定の方法は「超入門」編の記事を参考にしてください。

動画でみたい方はこちら

準備：画像のパスの入手方法

Edit機能を使う際は、Colabに画像をアップロードし、その画像パスを取得する必要があります。

まずは、画面左側の「ファイルマーク」をクリックします。
下に示す画像に従って、順番にクリックしていきましょう。

次に、操作対象の画像を選んで、アップロードします。

少し待つと、この三角マークを押して表示される「content」フォルダの中にアップロードした画像の名前が表示されます。

ここから先、「画像のパスをペーストします」という工程が何度も出てくるのですが、ここで得られるパスを入力してください。

Erase Object機能とは？

Erase Objectサービスは、画像マスクを使用して、肖像画のシミや机の上のアイテムなど、不要なオブジェクトを削除します。マスクは2つの方法のいずれかで提供されます
(1)「mask」パラメータ経由で別の画像を明示的に渡す。
(2)「image」パラメータのアルファチャンネルから派生させる。

実際にEraseを使ってみよう！

ステップ1：マスキング前の画像のパスを取得する

Inpaintの入力項目に、「image」と「mask」があります。

image：マスキング前の画像のパスを入力しましょう
mask：マスク画像のパスを入力しましょう

まずは、元画像のパスを取得しましょう。
マスクを必要とする機能を使う場合、マスク画像とピクセルがずれた画像を入力したり、本来の画像とは関係のない部分（画像をGoogle Slideなどに貼り付けた場合の余った余白の部分など）を含む画像を入力すると、マスク画像とうまくリンクせずに画像が揺れてしまうことがあります。
そのため今回は、Google Slideを使って丁寧にマスクをしていきます。
まず、今回使うinpaint対象の元画像がこちらです。