welcome to test this Elsa (Qwen,HiDream,Wan,Hunyuan,Flux)

詳細

ファイルをダウンロード

モデル説明

Qwen-Image:

Qwen-imageは、まるで「SDXL」が再登場したかのような、まさに次の飛躍である。本当に、資金やハードウェアがあれば、このモデルのファインチューニングを試さない手はない!

次に「Pony」ブームを巻き起こすモデルがあるとすれば、それは間違いなくQwenだ!

詳細さや衣装の正確さをぜひチェックしてみてください!

Qwen-imageは、実際に何かを学習したのです。ほぼ映画級のクオリティです。

これまで、これほど学習能力に感銘を受けたモデルはhunyuanvideoだけでした。しかし、その画像品質はWanほどではなかった。

しかし、Qwen-imageは両方を完璧に網羅しています。

(ただし、一貫したキャラクターの肖像性では、依然としてhunyuanが最高峰だと思っています—Qwenが95点なら、hunyuanは99点のようなものです。)

正直に言えば、ここで真に価値があるのは、熟練したトレーナーにしか理解できない点です。

Wan2.2_9-outfit(高ノイズ+低ノイズ):

同じデータセットを使用しましたが、今回はトレーニング用キャプションを強化しました—Wan 2.1と同じ問題:衣装のバリエーションが依然として定着しません。私が見ている改善点は、むしろデータセットのクリーンさによるもので、モデル自体のアップグレードによるものではありません。テスト中に、Wan 2.2の画像がやや柔らかく出力されていることに気づきました。これはKSampler(アドバンスド)の「ステップ開始/終了」トリックの副作用です。

Wan2.2_T2V_14Bの低ノイズチェックポイントと、通常のWan2.1_T2V_14Bチェックポイントは多くの重みを共有しているため、LoRAはほぼ互換性があります。(実際、Wan 2.2の高ノイズチェックポイントにはstep_distill LoRAは不要でした。真正の差を生んだのは、低ノイズチェックポイントのstep_distill LoRAでした。)

Wan2.1_9-outfit:

このモデルをリリースするつもりは最初からありませんでした。先月より前にトレーニングを終えましたが、期待した結果が出なかったため、誰も興味を示さないだろうと思っていました。
このバージョンのタグTXTを作成するのを忘れてしまいました。

HiDream:

素晴らしい!HiDreamはFluxの次世代版のように感じられます——トレーニングが簡単で、細部を鮮明に捉えます!外観の若干の不安定性は存在しますが、その性能を覆すものではありません。

残念ながら、HiDreamの実行にはハードウェアリソースが非常に厳しく必要です。3つのバージョンがあり、たとえ「Fast」版でも、私にとってはまだ遅いです。

さらに、前学習の準備が本当に面倒でした。このLoRAはあくまでテスト用であり、最適化されておらず、トレーニングデータセットも不完全です(比較実験用)。

私は、これが次世代モデルの一つになる可能性があると考えています。

詳細な紹介はこちら:https://comfyui-wiki.com/en/tutorial/advanced/image/hidream/i1-t2i

Wan2.1-14B (T2V)

チェックポイントを保存せずにトレーニングを早めに終了してしまいました。継続していれば、さらに良い結果になっていたでしょう。しかし、このバージョンでもWan2.1-14Bの品質を評価するには十分です。共有が遅すぎないことを願います。以前、14Bをトレーニングしなかった理由は、その巨大な重みファイルと、テストが極めて遅かったからです。そのため、最初は画像のみをアップロードしました。技術的には、画像を1フレームの動画として扱っていることをご存知ですか?クラウドでデュアル4090X2を使用しても、ステップあたり3秒かかります(hunyuanvideoは1秒/ステップ)。

テスト中に、14Bの2つの特徴に気づきました:

  1. 他のモデルに比べ、過学習に対してはるかに強い。

  2. 出力はhunyuanvideoよりもクリーンで、ノイズが少ない。

Wan2.1-1.3B

これらのすべての例はwan2.1-1.3Bを使用して生成され、公式の1.3B重みモデルでトレーニングしました。おそらく、なぜこんなに多くのElsa LoRAがあるのか疑問に思っているでしょう。彼女は、新しいモデルをテストするときの私の定番キャラクターです。他にも個人的・技術的な理由がありますが、おそらく興味はないでしょう。

とにかく、Hunyuanはトレーニング画像からキャラクターの顔や衣装を捉える点で、Wanより一般的に優れています。T2V(テキスト→動画)にはかなりうまく対応します。

一方、WanはI2V(画像→動画)に使用されます。

Flux-Elsa(冬のドレス)

FluxのLoRAは、Elsaの複数の衣装セットにはうまく対応できないことに気づき、別々にトレーニングしてみました。しかし、期待したほど良い結果ではありませんでした。Fluxは混乱させます——キャラクターの肖像性を阻害している何かがあります。

Flux-test
これはCivitaiプラットフォームの問題かもしれません——アップロードした更新版が404エラーを返しました(アップデート中に失われた可能性があります)。

このFlux開発モデルをぜひお試しください。一定期間後に削除する可能性があります。

あまりにも粗末な試みだったため、最終モデルをテストせずにリリースしました。Civitaiのオンライン生成機能を利用するためです。

このモデルで生成された画像

画像が見つかりません。