welcome to test this Elsa (Qwen,HiDream,Wan,Hunyuan,Flux)
詳細
ファイルをダウンロード
モデル説明
Qwen-Image:
Qwen-imageは、まるで「SDXL」が再登場したかのような、まさに次の飛躍である。本当に、資金やハードウェアがあれば、このモデルのファインチューニングを試さない手はない!
次に「Pony」ブームを巻き起こすモデルがあるとすれば、それは間違いなくQwenだ!
詳細さや衣装の正確さをぜひチェックしてみてください!
Qwen-imageは、実際に何かを学習したのです。ほぼ映画級のクオリティです。
これまで、これほど学習能力に感銘を受けたモデルはhunyuanvideoだけでした。しかし、その画像品質はWanほどではなかった。
しかし、Qwen-imageは両方を完璧に網羅しています。
(ただし、一貫したキャラクターの肖像性では、依然としてhunyuanが最高峰だと思っています—Qwenが95点なら、hunyuanは99点のようなものです。)
正直に言えば、ここで真に価値があるのは、熟練したトレーナーにしか理解できない点です。
Wan2.2_9-outfit(高ノイズ+低ノイズ):
同じデータセットを使用しましたが、今回はトレーニング用キャプションを強化しました—Wan 2.1と同じ問題:衣装のバリエーションが依然として定着しません。私が見ている改善点は、むしろデータセットのクリーンさによるもので、モデル自体のアップグレードによるものではありません。テスト中に、Wan 2.2の画像がやや柔らかく出力されていることに気づきました。これはKSampler(アドバンスド)の「ステップ開始/終了」トリックの副作用です。
Wan2.2_T2V_14Bの低ノイズチェックポイントと、通常のWan2.1_T2V_14Bチェックポイントは多くの重みを共有しているため、LoRAはほぼ互換性があります。(実際、Wan 2.2の高ノイズチェックポイントにはstep_distill LoRAは不要でした。真正の差を生んだのは、低ノイズチェックポイントのstep_distill LoRAでした。)
Wan2.1_9-outfit:
このモデルをリリースするつもりは最初からありませんでした。先月より前にトレーニングを終えましたが、期待した結果が出なかったため、誰も興味を示さないだろうと思っていました。
このバージョンのタグTXTを作成するのを忘れてしまいました。
HiDream:
素晴らしい!HiDreamはFluxの次世代版のように感じられます——トレーニングが簡単で、細部を鮮明に捉えます!外観の若干の不安定性は存在しますが、その性能を覆すものではありません。
残念ながら、HiDreamの実行にはハードウェアリソースが非常に厳しく必要です。3つのバージョンがあり、たとえ「Fast」版でも、私にとってはまだ遅いです。
さらに、前学習の準備が本当に面倒でした。このLoRAはあくまでテスト用であり、最適化されておらず、トレーニングデータセットも不完全です(比較実験用)。
私は、これが次世代モデルの一つになる可能性があると考えています。
詳細な紹介はこちら:https://comfyui-wiki.com/en/tutorial/advanced/image/hidream/i1-t2i
Wan2.1-14B (T2V)
チェックポイントを保存せずにトレーニングを早めに終了してしまいました。継続していれば、さらに良い結果になっていたでしょう。しかし、このバージョンでもWan2.1-14Bの品質を評価するには十分です。共有が遅すぎないことを願います。以前、14Bをトレーニングしなかった理由は、その巨大な重みファイルと、テストが極めて遅かったからです。そのため、最初は画像のみをアップロードしました。技術的には、画像を1フレームの動画として扱っていることをご存知ですか?クラウドでデュアル4090X2を使用しても、ステップあたり3秒かかります(hunyuanvideoは1秒/ステップ)。
テスト中に、14Bの2つの特徴に気づきました:
他のモデルに比べ、過学習に対してはるかに強い。
出力はhunyuanvideoよりもクリーンで、ノイズが少ない。
Wan2.1-1.3B
これらのすべての例はwan2.1-1.3Bを使用して生成され、公式の1.3B重みモデルでトレーニングしました。おそらく、なぜこんなに多くのElsa LoRAがあるのか疑問に思っているでしょう。彼女は、新しいモデルをテストするときの私の定番キャラクターです。他にも個人的・技術的な理由がありますが、おそらく興味はないでしょう。
とにかく、Hunyuanはトレーニング画像からキャラクターの顔や衣装を捉える点で、Wanより一般的に優れています。T2V(テキスト→動画)にはかなりうまく対応します。
一方、WanはI2V(画像→動画)に使用されます。
Flux-Elsa(冬のドレス)
FluxのLoRAは、Elsaの複数の衣装セットにはうまく対応できないことに気づき、別々にトレーニングしてみました。しかし、期待したほど良い結果ではありませんでした。Fluxは混乱させます——キャラクターの肖像性を阻害している何かがあります。
Flux-test
これはCivitaiプラットフォームの問題かもしれません——アップロードした更新版が404エラーを返しました(アップデート中に失われた可能性があります)。
このFlux開発モデルをぜひお試しください。一定期間後に削除する可能性があります。
あまりにも粗末な試みだったため、最終モデルをテストせずにリリースしました。Civitaiのオンライン生成機能を利用するためです。




















