One-image LoRAs vol.1
詳細
ファイルをダウンロード
モデル説明
これは1枚の画像ごとにトレーニングされたLoRAを組み合わせた実験的コレクションです。明らかに過適合していますが、これが意図された結果です。
注意:結果が頻繁に不安定になるため、トリガー語を使用するかどうかを適宜判断してください。使用している場合、LoRAの割合やトリガー語を自由に変更してください。
ベースモデルは Suzumehachi です。
UPDATE:
ワークフロー。
作成方法は以下の通りです。面白い画像を見つけ、正方形に変換したり、手動で1~2つの注目すべき部分に切り抜きます。その後、BLIP(必要に応じてDeepDanbooruも併用)でキャプションを自動生成し、内容に問題がないか確認します。その後、たいていながら特殊なトリガー語を追加します(LoRAが特殊なプロンプト環境で弱体化する可能性を防ぐため)。
私はkohyaを使用し、以下のパラメータでトレーニングしています(最も重要なもののみ表示):
number of steps for dataset image - 100-200
--network_alpha="128"
--text_encoder_lr=5e-5
--unet_lr=0.0001
--network_dim="128"
--lr_scheduler_num_cycles="1"
--learning_rate="0.0001"
--lr_scheduler="constant"
--train_batch_size="2"
--mixed_precision="bf16"
--clip_skip=2
--noise_offset=0.1
--min_snr_gamma=5
私の他のワークフローの関係上、異なるシードでLoRAを4種類作り、それぞれペアで約0.7の乗算係数で組み合わせます:
python.exe "networks\merge_lora.py" --save_precision fp16 --precision fp16 --save_to combined_lora.safetensors --models lora_1.safetensors lora_2.safetensors --ratios 0.7 0.7
何か問題が起きた場合、異なる乗算係数で再組み合わせるか、一部のLoRAアウトライアを除外します。




















