Randoseru Buruma

929
8.3K

詳細

ファイルをダウンロード

モデル説明

ランドセル専用のLoRA /model/76191

ランドセルとブルマを同時に。

ランドセルだけでも使用可能。

ブルマだけを使うと、体操服に肩ベルトが付いてしまいます。

ランドセルの色は主にピンク。ブルマの色は主に紺色または赤色。

lora:randoseruburuma_v1.3:1 ランドセルを背負い、紺色のブルマと色付きの裾のある白い体操服を着用

商業利用については、私のプロフィールをご参照ください。

寄付はこちらから:https://ko-fi.com/eeb_p

ランドセルブルマです。

ブルマなしのランドセルとしても使用できます。

ランドセルなしでブルマを使用しようとすると、体操服に肩ベルトが付いてしまいます。

ランドセルはピンク、ブルマは紺色か赤色が出やすいです。

lora:randoseruburuma_v1.3:1 ランドセルを背負い、紺色のブルマと色付きの裾のある白い体操服を着用

バージョン 1.3

手の描画が改善され、ブルマの色を選択可能

ランドセルを背負い、紺色のブルマと色付きの裾のある体操服を着用

lora:randoseruburuma_v1.3:1 ランドセルを背負い、紺色のブルマと色付きの裾のある白い体操服を着用

lora:randoseruburuma_v1.3:1 ランドセルを背負い、赤色のブルマと色付きの裾のある白い体操服を着用

lora:randoseruburuma_v1.3:1 ランドセルを背負い、緑色のブルマと色付きの裾のある白い体操服を着用

バージョン 1.2

LoRAブロック重み 0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0 を適用

lora:randoseruburuma_v1.2:1 ランドセルを背負い、ブルマと色付きの裾のある体操服を着用

バージョン 1.0

LoRAブロック重みをご利用の場合、以下の値が良いでしょう。

lora:randoseruburuma_v1.0:1:0,0,1,1,1,1,0,1,1,1,0,0,0,1,1,1,0,1,1,1,1,0,0,0,0,0 ランドセルを背負い、ブルマと色付きの裾のある体操服を着用

解説

衣装LoRAを作成する人の役に立つかはわかりませんが、このLoRAの学習方法を記載します。

ランドセルブルマLoRAは、ランドセルという大きなアクセサリーと、ブルマ体操着という一般的な衣装の両方を学習しているため、少し特殊かもしれません。

すべてのデータが残っていないため、残っているログから確認していますが、一部誤っている可能性もあります。

私のやり方をそのまま真似していただく必要はなく、初めて衣装LoRAを作る人のための入り口になればと考えて記載します。

雰囲気で学習してもある程度の結果が出るという例になれば幸いです。

学習画像の準備

学習画像は244枚

顔はクロップして切り取っています。

LamaCleanerで、服にかかった髪の毛、服のタグやロゴ、ランドセルや衣装のアクセサリを除去しています。

Rembg(1111 webuiの拡張機能)で一部の画像の背景を除去しています。(簡単には除去できないものは諦めてそのまま使用)

被写体のポーズで手が隠れているものを使用すると、画像生成時に手が欠落しやすくなるため、除外しています。

83枚のランドセルブルマ画像

WD14 captioningでラベルを付けて、1girl、soloは削除しています。

26枚のランドセル画像

一度BLIPでキャプションを付けてから、1枚ずつ手動で修正し、「upper body wearing pink randoseru backpack」と「view from ****」を追加しました。

これにより、バックパックという概念をランドセルで上書きし、人の体のどの部分に、どの角度でランドセルがついているかを学習させます。

すべての角度で同じ枚数の学習データがあると、ランドセルLoRAのときにbehindやsideの生成が悪かったため、枚数を増やして学習精度を向上させています。

9枚の背面からのビュー画像

5枚の上からのビュー画像

5枚の正面からのビュー画像

7枚の横からのビュー画像

11枚のブルマ画像

WD14 captioningでラベルを付けて、1girl、soloは削除しています。

学習

https://github.com/bmaltais/kohya_ss.git を使用して学習しています。

上記3つの画像を別のフォルダに分割し、ステップ数を調整しています。

画像枚数が少ない要素については、フォルダのステップ数を増やしてバランスを取ります。

1_randoseruburuma

3_randoseruview

7_buruma

LoRAタイプ:Standard(通常のLoRA)

トレーニングバッチサイズ:4(GPUメモリサイズに応じて決定。Out of memoryになったら下げ、余裕があれば上げましょう。)

エポック数:50と入力。生成時に41になっており、出来が良かったエポック12を選択しています。

精度:bf16。fp16でも良いかもしれません。

コアあたりのCPUスレッド数:お使いのCPUに合わせて設定してください。

学習率:1

LRスケジューラ:cosine

LRウォームアップ:0

オプティマイザ:DAdaptLion

オプティマイザの追加引数:"betas=(0.9, 0.99)" "weight_decay=0.4" "d0=1e-06"

Text Encoderの学習率:1

Unetの学習率:1

Network Rank(次元):128

Network Alpha:128

Scale weight norms、Network dropout、Rank dropout、Module dropout:すべて0。よく理解していません。

最大解像度:512, 512

Text Encoderのトレーニング停止:0

Text Encoderのトレーニング停止:ON

おまけ:高度な設定

衣装と無関係なブロックを削除しています。

これは、まず重みをデフォルト(すべて1)でLoRAを作成し、どの階層のBlock Weightを削除してもランドセルブルマ画像が生成されるかを確認して設定しました。

"down_lr_weight": "0,1,1,1,1,0,1,1,1,0,0,0",

"mid_lr_weight": "1",

"up_lr_weight": "1,1,0,1,1,1,1,0,0,0,0,0",

このモデルで生成された画像

画像が見つかりません。