Shiina Yuika/椎名唯華 | Wan2.1 & 2.2 14B

詳細

ファイルをダウンロード

モデル説明

-------------------------

Wan2.2:

トリガーワード: Shiina Yuika, アニメスタイルの少女。画像にはピンク色のショートボブカットの髪をしたアニメスタイルのキャラクターが描かれている。髪は少し乱れ、肩に幾本かの髪の毛が落ちている。キャラクターの目は大きく、感情豊かで、薄い青色をしており、画像全体のパステル調の美しさに調和している。キャラクターは白いセーターに赤いリボンネクタイを着用し、学校制服として白いブラウス、赤いリボンネクタイ、ベージュのカーディガン、赤と白のチェックスカートを身に着けている。

lr:(3e-4,flow_shift7.0,timestep_boundary 885)

epoch:140

train_step:4200

lora_strength:0.8

サンプルプロンプト: Shiina Yuika, アニメスタイルの少女。画像にはピンク色のショートボブカットの髪をしたアニメスタイルのキャラクターが描かれている。髪は少し乱れ、肩に幾本かの髪の毛が落ちている。キャラクターの目は大きく、感情豊かで、薄い青色をしており、画像全体のパステル調の美しさに調和している。キャラクターは白いセーターに赤いリボンネクタイを着用し、学校制服として白いブラウス、赤いリボンネクタイ、ベージュのカーディガン、赤と白のチェックスカートを身に着けている。 (she is dancing:4.0), (chibi Nendoroid:4.5) in bedroom.

アクションは強調プロンプトによって3.0~5.0に調整する必要があります。またはモーションLoRAを併用してください。

lightx2v Wan2.2 v1.1との併用を推奨します。

Action prompt should be adjusted to 3.0 to 5.0 depending on emphasis prompt. Or motion lora use together.

-------------------------

Wan2.1:

lightx2v Wan2.2 v1.1 LoRAとの併用を推奨します。

このLoRAは、Nijisanjiのキャラクター「椎名唯華(Shiina Yuika)」を描いています。

トリガーワード: shiina yuika nijisanji, アニメスタイルの少女。ピンク色の髪とカジュアルな学校制服を着たアニメスタイルのキャラクターで、ベージュのカーディガン、赤いリボンネクタイ、チェックスカートが特徴。

学習済み: musubi-tuner、20枚の画像

キャプション: ChatGPTで調整された短いキャプション(背景の記述を含む)

lr:(2e-4,flow_shift3.0)

epoch:230

train_step:4600

lora_strength:0.9

サンプルプロンプト: shiina yuika nijisanji, アニメスタイルの少女。ピンク色の髪とカジュアルな学校制服を着たアニメスタイルのキャラクターで、ベージュのカーディガン、赤いリボンネクタイ、チェックスカートが特徴、(she is dancing:1.8), (chibi Nendoroid:2.5) in bedroom.

アクションは強調プロンプトによって2.0~4.0に調整する必要があります。またはモーションLoRAを併用してください。

Action prompt should be adjusted to 2.0 to 4.0 depending on emphasis prompt. Or motion lora use together.

以下備考:

・キャラクターの再現度とプロンプトの動きやすさはトレードオフの関係にあり、おそらく生成プロンプト(トリガーワード)が長ければ長いほど再現度は上がるが、動きやすさは制限される。

動きにくい場合はLoRA強度を下げるか、強調プロンプトを有効にするとよいが、Kijaiのワークフロー(/model/1335809/wan21-14b-chihaya-anon-mygo のワークフロー使用)では、プロンプト強調や{A|B|C}構文が上手く機能しなかったため、TextEmbed Bridgeを使用するように改造した。

とはいえ、今回のキャプションは短めなので、強調プロンプトを未使用でも比較的動きが反映されやすい。

・musubi-tunerの学習では、HunyuanVideoよりblocks_to_swapを大きくしないとVRAM不足に陥りやすかった。

しかし、Wan2.1のLoRA学習速度はHunyuanVideoと同程度だった。HunyuanVideoでは14程度で十分だったが、Wan2.1では24程度にする必要があった。

4070Ti(VRAM 12G) musubi tuner

--blocks_to_swap 14 …198.27s/it

--blocks_to_swap 24 … 3.3s/it

・推移損失:

avr_lossは開始時0.100

100epoch(2000step)で0.085

230epoch(4600step)で0.065

250epoch(5000step)で0.060

・文字が書けるか

漢字は書けるようだ。ひらがな、カタカナは書けなかった。代わりに変な記号が現れる。

また、漢字を書くと何故か画質が低下した。

・生成時間はHunyuanVideoの2~3倍かかるため、LoRAがあるならHunyuanVideoの方が生成のランダム性を活かす点で有利かもしれない…。

HunyuanVideoでうまくいかなかったプロンプトをWanが描けるかどうかはまだ試せていない。

このモデルで生成された画像

画像が見つかりません。