Colossus Project Flux

詳細

ファイルをダウンロード

モデル説明

山の深い奥底には、人間を助けることも、破壊をもたらすこともできる眠る巨人がいる…

巨大なコロッサスが目覚める…

SDXLシリーズの後、今回のプロジェクトのFLUXシリーズの出番です…今回は、このモデルをゼロから訓練しました。訓練には自分で作成した画像を使用しました。これらの画像は、私のSchnell FluxモデルDemonFlux/Colossus Project schnellと、SDXL Colossus Project 12をリファイナーとして使用して作成しました。

このSD Fluxチェックポイントは、ほぼすべてのものを生成可能です。コロッサスは、極めてリアルな画像、アニメ、アートを非常に得意としています。

気に入っていただけたら、フィードバックをお願いします。また、私の活動をサポートしていただきたい方は、こちらからお願いします。私は、実際にFLUXモデルを訓練できるコンピュータを構築するために相当な費用を費やしました。また、訓練やテストには膨大な時間と電力が必要です。

https://ko-fi.com/afroman4peace

バージョン V12 "Hephaistos"

このチェックポイントを公開することは、私にとって喜びと悲しみを同時に感じさせるものです…V12はこのシリーズの最終チェックポイントとなります。主な理由は、近々施行されるEUのAI法です。もう一つの理由は、Flux .1 DEV自体のライセンスです。これまでのサポート、本当にありがとうございました!過去1年間で、このプロジェクトに多くの時間を注ぎ込みました。今、新しいプロジェクトに進む時です。

いずれにせよ、このシリーズを最高潮で終わりにしたいと思います…

V12はV10B "BOB"を基盤としていますが、このシリーズの最も優れた要素をすべてブロックマージしてこの1つのチェックポイントに凝縮しました(新しいマージ手法を使用し、マージに約1時間30分かかり、128GBのRAMをすべて使用しました)。また、V10と比較して、顔と肌のテクスチャを強化しました。目の表現は以前よりはるかにリアルで、生き生きとしています。

実際に試して、V12についてフィードバックをお願いします。「遅いインターネット接続」のおかげで、まずFP8_UNETをアップロードします。その後、FP8「オールインワン」バージョン、そしてFP16_UNETとFP16_BEHEMOTHを順次アップロードします。さらに、int4とfp4への変換も試みます(うまくいくように祈ってください)。

V12について、いつも通りフィードバックをお願いします。

バージョン V12 "Behemoth" (AIO)

この「オールインワン」モデルは、V12シリーズ中最も優れたものです…もちろん、サイズも最大です :-)

BehemothにはカスタムT5xxlとClip_lがモデル内に組み込まれています。品質を重視される方には、このチェックポイントが最適です!

バージョン V12 FP4/int4

NunchakuTechのMuyang Li氏がV12の量子化を実施してくれました。https://huggingface.co/nunchaku-tech および彼の素晴らしいnunchakuに感謝します!

このバージョンはまさに驚異的です。これまでにない品質とスピードの組み合わせです。

注意!

FP4とint4の2つのバージョンがあります。FP4はNvidia 50xxシリーズのGPU専用です。一方、int4は40xxおよびそれより下位のGPUで動作します(最低でも20xxシリーズのGPUが必要です)。

両バージョンを直接こちらからダウンロードできます:https://huggingface.co/nunchaku-tech/nunchaku-flux.1-dev-colossus

インストールガイドとワークフロー

以下に簡単なインストールガイドと作業中(WIP)のワークフローを掲載します。

https://civitai.com/articles/17313

ワークフローの詳細ガイド:

https://civitai.com/articles/17358

私は今、Nunchaku用の新しいワークフローを継続して開発中です。したがって、以下のワークフローはまだ非常に作業中(WIP)です。週末に詳細な記事を追加します。

バージョン V12 FP16_B_variant

深夜2時に小さなミスをしてしまい、「間違った」チェックポイントをリネームしてアップロードしてしまいました。これは公開するつもりのなかった非常に実験的なチェックポイントです。十分にテストされていませんが、ショーケース作成時には非常に良好な結果を出しました。標準版よりも優れている可能性があります。

アジア系の顔に傾向があります。これは、私が現在進行中の別プロジェクトで試したい要素を取り入れたためです。このチェックポイントについて、あなたの体験をお聞かせください :-)

バージョン V12 AIO FP8

このバージョンはV12のオールインワン版です。つまり、すべてのCLIPがモデル内に組み込まれています。カスタムClip_Lを使用したFP8_UNETと同様の出力が得られます。

バージョン V12 GGUF Q5_1

これはリクエストに基づいて作成されたバージョンです。品質は悪くありません。

バージョン V10B "BOB"

これはV10の代替バージョンです。V10のFP8版を改善するために作成しました。一般的に、FP8版はより正確で色合いも優れています。しかし、最近は時間があまり取れず(現実の生活が最優先)…そのため完成に時間がかかりました。このバージョンをお好みであればお知らせください。また、BOBのFP16版も用意しています。フィードバック次第で、int4版の公開も検討します。

ワークフロー:

V12とV10用のワークフローはこちら:https://civitai.com/articles/17163

バージョン V10_int4_SVDQ "Nunchaku"

まず、FP16_UNetをint4_SVDQに変換してくれたtheunlikely氏に感謝します。https://huggingface.co/theunlikely ぜひ彼のページを訪問し、いいねを押してください。

このバージョンはほぼFP8版と同等の品質です。私のワークフローの通常モードでも、通常のモデルより2〜3倍高速です。「高速モード」では、3090tiで約19秒で2MP画像をレンダリングできます。

SVDQ "Nunchaku" とは?

この新しい量子化手法により、Fluxモデル(この場合、ネイティブFP16モデル)を24GBから約6.7GBに縮小できます。それだけでなく、品質をほとんど失わずにこれまで以上に高速に生成が可能です。もちろん、私の32GB_Behemothと比べるとわずかな差は出ますが、このモデルを動かすにはそれなりのVRAM/RAMが必要です。

詳細は以下をご覧ください:https://github.com/mit-han-lab/ComfyUI-nunchaku?tab=readme-ov-file

インストール:ワークフロー/インストールガイドをご覧ください:https://civitai.com/articles/15610

バージョン V10 "Behemoth" (FP16_AIO)

このバージョンはまだ実験段階です。主な目標は、より現実的な結果を得ることでした。また、「Fluxライン」の一部を軽減できました。このモデルは、Colossus Project V5.0_Behemoth、V9.0、および「Ouroborus Project」と呼ぶ別のプロジェクトを基にしています。

FP16版は非常に安定しています。まもなくFP8版もリリースします。このバージョンも優れていますが、やや安定性に欠けます。

ぜひお試しください。このバージョンについての感想をお聞かせください。

楽しい創作を!

バージョン 9.0:

よく説明が必要です…まず、なぜV9.0なのか?

最近、新しいアパートへ引っ越しました。ISPのエラーにより、インターネット接続がまったくできなくなったため、引っ越し作業中に私のコンピュータをずっと稼働させました。その結果、多数の(ほとんど破損した)チェックポイントが生成されてしまいました。ただし、いくつか非常に優れたV8バージョンもありますので、おそらくそれらも公開する予定です。

何が変わったのか?

V5.0の最も優れた結果をもとに、顔と肌のテクスチャを新たに訓練しました。また、足と脚の解剖学的正確性を向上させるための訓練も行いました。V5.0のバージョンでは、頭部と足部がカットされることがありました。これらの問題の一部を修正できたと思います。

さらに、自分の風景画像を多く用いて訓練しました。そして、すべてを引っ越し作業中にやり遂げました…合計で約2週間の計算時間を使い、それなりにコストがかかりました(電力は1時間あたり約25セントです)。

いずれにせよ、このバージョンをお気に入りいただけたら嬉しいです。もし私の活動を応援していただきたいなら、素敵な画像を投稿していただけたら、あるいはBuzzやKofiでチップをいただければ幸いです。

ご感想をお聞かせください :-)

バージョン 5.0:

V5.0は実際、V4.2とV4.4(これもまもなくリリース予定)を基にしています。肌の細部と全体的な解剖学的正確性について追加訓練を行い、主に手や乳首の問題を修正しました。顔のディテールも大幅に向上しました。また、些細なFluxラインの修正にも取り組みました。

一般的に、このバージョンはV4.2より現実的で、細部にも優れています。V4.2と同じく、ハイブリッドデディスティルモデルです。V4.2とほぼ同じ設定でご利用いただけます。

新しいワークフローも追加しました:https://civitai.com/articles/11950/workflow-for-colossus-project-flux-50

このバージョンをV4.2やV2.1と比較して、ご感想をお聞かせください。

バージョン 4.4 "Research":

完全性のためにこのバージョンを追加しました。V4.2よりわずかに現実的で、V5.0の基盤となっています。お試しいただいて構いません。V5.0やV4.2のワークフローもそのままご利用いただけます。

バージョン 4.2:

このバージョンは、Demoncore FluxとColossus Project Fluxの進化版です。安定した出力、優れた肌のテクスチャ、手の精度向上、顔のバリエーション拡大を目指しました。そのため、一部Demoncore Fluxを組み込んだハイブリッドモデルで訓練しました。乳首とNSFW要素も若干強化しました。V4.2の方がV2.1より好きであれば、お知らせください :-)

ショーケース画像では、SDXL解像度または2MP解像度(例:1216×1632)のネイティブ画像のみを使用しました。このモデルはそれ以上の解像度にも対応できます。最大2500×2500までテストしましたが、推奨は約2000×2000です。

設定では、約30ステップ、CFG 2–2.5を推奨します。私のワークフローでは主に2.2または2.3を使用しています。ショーケースではDPM++ 2MとSimpleスケジューラを使用しました。

クリスマス前にはもう少しバージョンを追加しますが、時間が限られています。

設定

まもなく新しい専用Comfyワークフローを追加します。現在はショーケース画像をダウンロードしてご覧ください。

「オールインワン」バージョンはForgeでもよく動作します。

基本的にはV2.1と同じ設定でご利用いただけます(以下を参照)。

20–30ステップ、CFG約2.2で試してください。

バージョン 2.1_de-distilled_experimental (MERGE)

このバージョンは通常のFluxモデルとまったく異なり、動作も異なります!

これは私のバージョン2.0とde-distilled版https://huggingface.co/nyanko7/flux-dev-de-distillの実験的マージ結果です。偶然生まれましたが、その結果は驚異的です。驚異的なディテールが得られ、プロンプトに対する忠実度も非常に高いです。次に、de-distilledモデル自体で直接訓練する予定です。すでに一部のテストLoRAも試しています。これは非常に実験的なモデルですので、以下に記載されていないエラーを見つけた場合はお知らせください。良い画像があれば投稿してください。悪い画像もぜひ共有してください。改善に役立ちます :-)。V2.0も試して、どのチェックポイントが自分に合っているか教えてください。

!注意!

通常のFluxワークフローはこのバージョンでは動作しません!専用のワークフローをダウンロードする必要があります!

自分で何か工夫することもできますが、悪い画像については責任を負えません。また、このモデルは非常に実験的です。以下の欠点もご確認ください。

このチェックポイントの利点と欠点:

  • このチェックポイントは極めて詳細な画像を生成できますが、その代償として、通常のFluxチェックポイントより遅いです。その利点は、追加のアップスケールが必要ない場合が多いことです。FluxガイドanceではなくCFGスケールを使用するため、標準ワークフローでは動作しません。
  • ネガティブプロンプトが使用できます!不要な要素を画像から取り除くのに役立ちます。
  • まれにアーチファクトが発生することがあります。小さなアップスケールで解決できます(対応中です)。以下に例を示しますが、この現象はすべてのシードで発生するわけではありません… 更新:これはモデル自体の問題ではなく、ワークフローの問題です。対応中です。発生した場合は、最初のアップスケールを1.2ではなく1.14に設定してみてください。

設定とワークフロー V2.1:

ワークフローはこちら:https://civitai.com/articles/8419

設定:通常のFluxとは異なり、Fluxガイドランススケールは不要です。CFGスケールを使用してください。私のワークフローでは通常CFG 3を使用しています。一部の画像ではCFGを低めに設定する必要があります。

最も重要なのは、Fluxガイドランススケールをオフにすることです。

ワークフロー以外で、30ステップ、CFG 2–3でテストしました。これはForgeにも適用できます。ぜひ実験してください。

ネガティブプロンプトに「blurry」と入力することを推奨します。

サンプラーとスケジューラ:

稼働するサンプラーは多数あります:

Euler、Heun、DPM++2m、deis、DDIM はすべて良好に動作します。

私は主に「simple」スケジューラを使用しています。

より良い設定を見つけた場合は、ぜひ教えてください :-)

Forgeでは、AIOモデルの使用を推奨します。Forge用の設定例はこちら:

バージョン 2.0_dev_experimental

これは実験的なバージョンです。より一貫性があり、高速なモデルを作成することを目的としています。独自に訓練したいくつかのLoRAを追加し、その結果を特別な方法(テンソルマージ)でマージしました。カスタムT5xxlを導入し、「Attention Seeker」で修正しました。速度と品質の向上のため、ByteDanceのHyper Flux LoRAをマージしました。これにより、動作領域が変化しました。以下にその意味を示します…こちらがメインのタイトル画像です…

16ステップ V 2.0

30ステップ V 1.0

デメリット:

まず、このバージョンは前バージョンよりもやや大きいです。次に、まだUnet専用版を作成していないため、完成次第更新します。

設定とワークフロー V2.0:

現在、このモデルは少ないステップ数でも実行できます。16ステップで旧モデルの30ステップと同等の結果が得られます。

ただし、ほとんどの場合、品質を高めるために20〜30ステップの使用を推奨します。

サンプラー:私はスケジューラにSimpleを用いたEulerを推奨します。ガイドanceは1.5〜3の範囲で設定できます(もちろんこの範囲外でもお好みで試してください)。1.8のガイドanceはリアルな画像に依然としてよく機能します。他のサンプラーも試してみてください。DPM++2MやHeunも非常に優れた結果を出します。

ワークフロー 2.0:

V2.0およびV1.0用に新しいワークフローを作成しました。これには新しいFluxプロンプトジェネレーターが組み込まれています。さらに、2段目のアップスケーラーも動作可能にしました。https://civitai.com/articles/7946

Forge:

このモデルはForgeでもテストし、非常に良好に動作しました。ただし、Comfy UIとForgeでは生成される画像が若干異なる可能性があります。

Version 1.0_dev_beta:

このモデルはこのシリーズの最初のバージョンです。フィードバックや生成画像をぜひ共有してください。これにより、今後の改善に役立ちます。複数のバージョンが利用可能です。品質面で最適なのはFP16バージョンです。ただし、このバージョンはファイルサイズが大きく、高性能なGPUと大量のRAMが必要です。FP8バージョンは、品質とパフォーマンスのバランスが良く、優れた選択肢と考えています。GGUFバージョンをご希望の場合は、Q8_0をダウンロードしてください。GGUFのQ4_0/4.1バージョンは要望に基づいて作成されたもので、ファイルサイズは小さいですが、品質の一部を犠牲にすることになります。

私のモデルには主に2種類があります。「すべて統合」モデルは1つのファイルをダウンロードするだけで済み、Clip_L、T5xxl fp8、VAEがすべて内蔵されています。(下記を参照)。これをチェックポイントフォルダに配置してください。

他のバージョンはUNET専用です。こちらはすべてのファイルを個別に読み込む必要があります。

いずれの場合も、正しく動作させるために私のClip_Lをダウンロードする必要があります。

また、適切なT5xxl Clipを選択することも重要です。FP8バージョンにはfp8_e4m3fn T5xxl Clip、FP16バージョンにはFP16 Clipを使用してください。デフォルトの重みタイプを選択してください。(下記はFP8バージョンの例画像です)

GGUFバージョンを使用するには、GGUFローダーが必要です!

V1.0に関する現在わかっている点:

これはシリーズの最初のモデルであるため、一部のプロンプトやアートスタイルなどでは動作が不安定になる可能性があります。次バージョンではさらに学習を重ねます。モデルが対応できない点をご教示ください。

設定とワークフロー:

約30ステップ、スケジューラにはSimpleを用いたEulerでテストしました。ガイドanceは1.5〜3の範囲で設定可能です(この範囲外での試行も自由です)。

1.8のガイドanceはリアルな画像に適しています。

これらの設定を自由に試行してください。良い結果が得られたら、ぜひ共有してください。

私はショーケース画像をトレーニングデータとして追加しました。その中にはComfy用のワークフローが含まれています。ダウンロード用ワークフローはこちら: https://civitai.com/articles/7946

「すべて統合」モデル:

UNET専用:

Clip_L(240MB)もダウンロードしてください。

GGUF:GGUF用ワークフローを以下に追加しました: https://civitai.com/articles/7946

重要:

開発用モデルは商用利用を目的としていません。商用向けには別の場所で「schnell」モデルを公開します。このモデルは個人的または学術的な利用を主な目的としています。

ライセンス:

https://huggingface.co/black-forest-labs/FLUX.1-dev/blob/main/LICENSE.md

クレジット:

theunlikely https://huggingface.co/theunlikel(改めてありがとうございます)

Version 2.1/V4.2/5.0: Flux_dev_de-distill from nyanko7

https://huggingface.co/nyanko7/flux-dev-de-distill

V2.0由来:ByteDanceのHyper LoRA https://huggingface.co/ByteDance/Hyper-SD

Black Forest Labsの優れたFluxモデル https://huggingface.co/black-forest-labs

このモデルで生成された画像

画像が見つかりません。