巷で話題になっているInstructPix2Pixを試してみた。自然言語の命令を用いて画像編集が行えるというものである。従来のStable Diffusionのimg2imgでは写っているものが大きく変化してしまうといった問題点があったが、そのあたりが改善されるようにファインチューニングしているようだ。
Diffusers実装のColabノートブックが公開されていたので動かしてみた。VRAMはそれなりに使用するので、ローカルで動かすとすると12GBくらいは欲しいところだろうか。
入力画像
make it evening
make it ruin
出したい画を出してくれないことも多く、ちょっと制御しづらいところはあったが、革新的な技術だと感じた。