画像生成AI stable diffusion の初心者である私が、気が付いた注意点と注目点を書きます。
解像度とリファイナーの事です。
stable diffusionは日進月歩なので、これは時事ネタです。
時事ネタは後で見ると分からなくなるので、後で消します。悪しからず。
7月に前と互換性のないバージョンアップ(って言うのかな?)をして、SDXLと呼ばれる物になったようです。
だからかまだ情報が行き届いてないですね(そもそも進歩が早過ぎて、いつも行き届いてはいないようですが)。
SDXLでまず大事なのは、推奨解像度があるのですね。
1024x1024、1152x896、896x1152、1216x832、832x1216、1344x768、1536x640、640x1536
だそうです。
これ以外だと、確かに画像が悪かったり、壊れたりしやすいので、基本はこの解像度で行くのが良いようです。
あとwebuiは、一番メジャーなAUTOMATIC1111なのですが、Refinerが分かりずらいです。
Refinerの横の三角を押して、広げた状態で、使える状態なのだそうです(三角自体がスイッチです)。
邪魔だと思って閉じておくと使えません。変な仕様ですね。
隣の画像解像度自体を増やす奴(Hires.fix)も同じです。
SDXLはbase(ベース)で描いて、その後refiner(リファイナー)で細かな所を良くする、と言う仕組みなのだそうです。
だから大本が出している基本は、ベースとリファイナー両方を別で出してます。
(stable diffusionはこの基本ベースを、各々が画像を学ばせた、カスタムしたベースを使うのが普通です。アニメ調に適しているとか、実写に適しているとかです)
ただ別々に二つ用意するのが面倒くさいからか、世に出ているカスタムしたのは、ベースのみな場合(今は)多いです。
それにSDXLは、ベースのみでもかなり良く出来るので、それで問題はなさそうです。
ただAUTOMATIC1111をみると、リファイナーとしてベースを使えるようです。
なので、試してみました。
プロンプトは
sexy female angel, full body, game art style, (masterpiece), best quality, higher, 4k, 8k, Detailed Illustration, intricate detail, cinematic lighting, amazing quality, 1girl, fit female, amazing shading, soft lighting, facing camera, perfect eyes
です。
解像度やseed値、サンプリングは上の画像の通りです(サンプリングもSDXLだと、得意不得意があるようです。ネットで見たのだけど、忘れたので書きませんが)。
ベースはkohakuXLと言うのとcounterfeitxlです(上の画像のベースとリファイナーに入っている奴の事です。どっちもベースです)。どっちもアニメ調が得意だそうです。
上の画像でSwitch at とあるのが、どのタイミングでベースからリファイナーに切り替わるか? と言う数字です。
基本が0.8で、これは80パーセントまでベースで描き、残り20パーセントをリファイナーで描く、と言う意味だそうです。
これでリファイナーもベースにする事で、二つのベースのミックス作品が出来ると言う事です。
まずはベースkohakuXLのみで描いた奴です。
実はリファイナーも同じkohakuXLでもやってみたのですが、リファイナーなしと同じ結果だとしか見えない画像だったので、ベースのみと同じはずです。
次がcounterfeitxlのみの画像です。
counterfeitxlの方が、アニメっぽく、ベタッとした絵です。
kohakuXLの方は、もっと質感が本物っぽく描きます。
プロンプトでfull bodyとあるのに、kohakuXLでは全身が出にくいです。逆にcounterfeitxlは全身が出やすい。
などのベース独自の特徴があります。
で、全身を出したいが、細部はkohakuXLみたく質感が欲しい時に、
ベースcounterfeitxl
リファイナーkohakuXL
とすれば良いと思います。
Switch at の値を変えたサンプルを置いときます。
ベースcounterfeitxl リファイナーkohakuXL
Switch at 0.8
Switch at 0.5
Switch at 0.2
Switch at 0.2 にした時には、全身が出て、細部がkohakuXL寄りになってると思います。
ただ、元に引っ張られてから描いているので、口の位置がちょっとおかしいですけどね。
(良く見たら、靴も雑ですね。kohakuXLは全身が出にくいと言いましたが、たぶん足の映像がほとんどないからでしょう)
せっかくなので、逆も載せときます。
ベースkohakuXL
リファイナーcounterfeitxl
Switch at 0.8
Switch at 0.5
Switch at 0.2
Switch at 0.2は顔だけアニメ調で、ギャグ見たくなります。
Switch at 0.5は筆感が残った手書きの様な感じが出て、これはこれで面白いですね。ただ目が寄ってしまっておかしいですけど。
まあ、そんな所です。