可変感情可変予定制御

街歩きブログになりつつあるなにか

画像生成AIで遊んでみる Stable Diffusion編

続いて8月後半に公開されたStable Diffusionを試してみた。なんとオープンソースでモデルまでも公開されているため、個人で環境構築してしまえば自由に動かせる。ただし、高スペックのGPUが要求される(VRAMをめちゃくちゃ食う)ので、大人しくGoogle Colabを使うことにした。

まずは普通に文章から生成してみる。


キマった宇宙猫


おんねこ 


「salmon run」で生成した画像。AIは鮭の切身ばかり学習していたせいか、切り身が川を泳ぐふざけた画像が生成されてしまうことが発見されてしまった。 
また、正方形以外の画像も生成できることが分かったのだが、スペック的には768×512が限界っぽい。時間がかかるのではなくメモリが足りない...。

 

続いてimg2imgを試す。
image to imageといいつつ実際は元画像と文章の2つの入力を使用して画像を生成する。静岡県の朝鮮岩に登ったが富士山が見えなかったときの写真に富士山を生やしてみよう。


細かく見るとかなり違うのだがだいたいの雰囲気は一致していると思う。これはstrengthというパラメータを調整することで改善するかもしれない。

 

無料のColabで動かしていることもあって、あまり解像度の高い画像を生成できないのがちょっと残念なので、もう少しモデル軽量化してくれたらなぁ~。とか思いながらも、そもそもこのようなプログラムとモデルがオープンソースで公開された衝撃は大きい。最初にDALL·E 2を触ったときはかなりの衝撃を感じたが、ここ一ヶ月画像生成AIを弄りまわしていたせいで完全に慣れてしまった。技術発展というのは恐ろしい。