One-image LoRAs vol.1

詳細

ファイルをダウンロード

モデル説明

これは1枚の画像ごとにトレーニングされたLoRAを組み合わせた実験的コレクションです。明らかに過適合していますが、これが意図された結果です。

注意:結果が頻繁に不安定になるため、トリガー語を使用するかどうかを適宜判断してください。使用している場合、LoRAの割合やトリガー語を自由に変更してください。

ベースモデルは Suzumehachi です。

UPDATE:

ワークフロー。

作成方法は以下の通りです。面白い画像を見つけ、正方形に変換したり、手動で1~2つの注目すべき部分に切り抜きます。その後、BLIP(必要に応じてDeepDanbooruも併用)でキャプションを自動生成し、内容に問題がないか確認します。その後、たいていながら特殊なトリガー語を追加します(LoRAが特殊なプロンプト環境で弱体化する可能性を防ぐため)。

私はkohyaを使用し、以下のパラメータでトレーニングしています(最も重要なもののみ表示):

number of steps for dataset image - 100-200

--network_alpha="128"

--text_encoder_lr=5e-5

--unet_lr=0.0001

--network_dim="128"

--lr_scheduler_num_cycles="1"

--learning_rate="0.0001"

--lr_scheduler="constant"

--train_batch_size="2"

--mixed_precision="bf16"

--clip_skip=2

--noise_offset=0.1

--min_snr_gamma=5

私の他のワークフローの関係上、異なるシードでLoRAを4種類作り、それぞれペアで約0.7の乗算係数で組み合わせます:

python.exe "networks\merge_lora.py" --save_precision fp16 --precision fp16 --save_to combined_lora.safetensors --models lora_1.safetensors lora_2.safetensors --ratios 0.7 0.7

何か問題が起きた場合、異なる乗算係数で再組み合わせるか、一部のLoRAアウトライアを除外します。

このモデルで生成された画像

画像が見つかりません。