今回は画像生成AIのLoRAの影響力についてのお話です。
私は最近、PixAI.Artというサービスでよく画像生成をしております。そして、その際にはLoRAというデータも使って画像をより自分好みに仕向けることが多いです。モデルで生成する画像の作風を決めて、LoRAでモチーフの個性を強く反映させるようなイメージです。
みなさんはLoRAを使ってみたことはございますか?使ってみたことがある方は、その便利さを実感しているのではないかと思います。今回はまだLoRAにどんな効果があるのかがよくわからない方に、LoRAを利用しない場合と利用する場合でどんな違いが出てくるのかを、比較画像を用いてご紹介していきます。
使用するLoRA
何のLoRAを使って試すのかというと、私が先日PixAIで作った【?マーク】のPixAI学習LoRAを使用して比較していきます。このLoRAは私がPixAIで生成した【?マーク】を含む画像を50枚くらい選び、AIに学習してもらってできたものです。なるべく形の良い【?マーク】だけを選んで作りました。LoRA名は『question_mark』です。
PixAI.ArtでのLoRAの作り方は、別の記事でご紹介しておりますので、ご興味がございましたら、その記事もご覧ください。URLリンクを貼っておきます。
手軽にオリジナルのLoRAを作ってみよう(https://senisthousand.hatenablog.com/entry/original_lora)
余談
始まって早々に話が少しそれますが、みなさんは【?】って何て読みますか。私は普段の会話では「はてな」とか「はてなマーク」って言ってます。「クエスチョンマーク」って言う人も多いと思います。少しかっこよく「クエッションマーク」って言う人もいますよね。あとは「疑問符」というのもちらほら会話の中に出てきますよね。
「はてな」,「はてなマーク」,「クエスチョンマーク」,「クエッションマーク」,「疑問符」以外の読み方をしている方がいらっしゃいましたら、是非コメント欄で教えてください。
一応、私のX(旧ツイッター)でアンケートを取ってみたところ、【?】は以下のような割合で読まれていることがわかりました。
回答数:11票
私の力不足により11票しか回答を得られてないので正確性は低いアンケートですが、はてなマークと読む方がぶっちぎりで多いようです。その逆に疑問符と読む方はあまりいないようです。私のXのアカウントがもっと人気になったら、またこのアンケートを試してみたいです。そして、今回ご回答くださった11名の方々にどうもありがとうございました。感謝申し上げます。
それでは余談を終了し、話を元に戻します。
基本条件
LoRA使用の有無を比較するには、それ以外の項目は同じ条件にしておいたほうがいいと思いますので、条件を以下のように揃えました。
・プロンプト:?, question mark
・ネガティブプロンプト:worst quality, large head, low quality, extra digits, bad eye, EasyNegativeV2, ng_deepnegative_v1_75t
・Sampling Steps:17
・Sampling Method:DPM++ 2M Karras
・CFG Scale:6.0
・縦横比:512✕512
・画像枚数:一括(x4)
・LoRA『question_mark』の比重:0.7
使用するモデル
使用するモデルは、1つでは面白くないので5つほど試してみます。以下の5つです。
- JIM TERUPOONMODE
- Children's Stories, Semi_Real, V1.0
- Coloring Page Creater
- Cute RichStyle 1.5
- BracingEvoMix
これらの5つのモデルを使って、私が作成した『question_mark』というLoRAを使うか使わないかで、どれだけ生成画像に影響が出るかを実験してみます。
比較画像とコメント
1. モデル『JIM TERUPOONMODE』の場合
不使用の場合でも右上と右下の画像は【?マーク】が生成されております。一方、使用した場合は、4枚中4枚とも【?マーク】が生成されました。ガチャガチャと余計な背景は生成されず、ブラウンとグレーのシンプルな背景の中にシンプルな【?マーク】が生成されました。但しよく見ると、右上の画像は下の点が一つ多いです。
2. モデル『Children's Stories, Semi_Real V1.0』の場合
不使用の場合でも使用した場合でも、それぞれ4枚中4枚とも【?マーク】が入りました。使用した場合は、【?マーク】以外のキャラクターやイラストが排除されて、【?マーク】だけが強調されたような画像になりました。このモデルの場合でも下の点が一つ多い形になっているものがちらほらあります。
3. モデル『Coloring Page Creater』の場合
このモデルの場合では、LoRAを使わないとあまりうまく【?マーク】が反映されてませんでした。LoRAを使った場合は、影のある立体的で個性的な【?マーク】の画像が生成されました。これも下の点がひとつ多いものがあります。
4. モデル『Cute RichStyle 1.5』の場合
不使用の場合の右上と右下は、イラストの文章の中に【?マーク】が隠れております。左上と左下はうまく生成できなかったようです。このモデルに関しては、LoRAを使用した場合でも、画像はシンプルになったもののきれいな形の【?マーク】は生成できませんでした。
5. モデル『BracingEvoMix』の場合
このモデルの場合は、LoRAを使わなかった場合でも4枚中4枚とも【?マーク】は生成されて、キャラクターとの調和もいい感じに取れている画像が生成されました。LoRAを使った場合は、キャラクターが完全に排除されてシンプルなペイントになりました。
まとめ
このLoRAを使用すると、どのモデルでも試しても【?マーク】が強調されたことがおわかりいただけたと思います。今回は比重を0.7で使った場合でした。この比重をもっと下げると【?マーク】だけでなく、他のキャラクターとの共存ができる画像が生成できるはずです。そういった調整は生成を繰り返していい塩梅を探す必要がありそうです。それと、私が作ったこのLoRAもまだまだ不完全かなと思いました。たびたび下の点が一つ多いものもできてしまうのが残念です。
最後に、『[abnormal body lora]Sphinx women』 と私が作った『question_mark』のLoRAを併用して生成した作品をご覧ください。LoRAの比重とプロンプトで整えて、キャラクターと【?マーク】が共存できているイラストになっております。プロンプトで吹き出しも入れてみました。
どうです?かわいいでしょ?
更新履歴
- 2024年1月24日:タイトルの変更
- 2024年2月4日:余談にXでのアンケート結果を追加
- 2024年4月19日:記事の概要を追加