zer0int's Long CLIP_L-Registers-Gated_MLP-ViT-L-14

詳細

ファイルをダウンロード

モデル説明

クレジットの100%はHuggingFaceのzer0intに帰属します。私はこのリソースを画像生成で使用できるようにここに掲載しているだけです。- HuggingFaceリンク - https://huggingface.co/zer0int/LongCLIP-Registers-Gated_MLP-ViT-L-14 - zer0intから削除を要請された場合は削除します。

注:これはSDXLには推奨されません。問題を短時間で確認したところ、まだ互換性のあるCLIP_Gはリリースされていないようです。したがって、SDXLではあまりうまく動作しない可能性があります。CLIP_Gが必要な場合は、おそらくこのモデルは使用しない方がよいでしょう。

"Long-CLIP_L"と"CLIP_L"の主な違いはトークン長です。

CLIP_L = プロンプトデータからの77トークン長。

Long-CLIP_L = プロンプトデータからの248トークン長。

私は主にFlux生成しか行わず、たまにLLMを利用しますが、より長いトークン長があると助けになります。なぜ77トークンに制限される必要があるのでしょうか?248トークンを使えるのに!

TE Only = テキストエンコーダのみ。ほとんどの場合、これだけで十分です。

Full Model = すべての要素を含むモデル。テキストから画像だけでなく、さらに多くの処理をしたい場合に使用します。

このLong-CLIP_Lは「Registers-Gated」バージョンで、微調整されたバージョンです。zer0intはこの微調整による違いを示す美しいチャートを提供しています。間違えなければ、これはテキスト-テキストと画像-テキストの関係がより密接に整い、誤ったデータの発生が大幅に減っていることを意味します。簡単に言えば、短くて広いほど良い!

このモデルで生成された画像

画像が見つかりません。