Gemma3-12B-Abliterated-fp8

詳細

ファイルをダウンロード

モデル説明

V1.0a 実験版!!

重要:必ずお読みください!!

Gemma-3-12B-Heretic-X (Sikaworld 高精細版)

これは、LastRef が実験的に作成した Heretic-X ファインチューニングに基づく、超ダイナミックで完全に検閲解除された LTX-2 用テキストエンコーダーです。

標準的な abliterated バージョンは「拒否」メカニズムを削除するだけですが、Heretic-X はカスタムデータセットで積極的に調整され、能動的かつ抑制のない記述を実現しています。LTX-2 の動画生成において、これは顕著に強いモーションベクトルをもたらし、静的な動画を「解凍」して複雑なシーンでより激しいダイナミクスを生成するのに役立ちます。

このバージョンは、Heretic-X の攻撃的な性質を制御するために、Sikaworld 高精細量子化手法を適用しており、ダイナミクスの向上が顔の対称性や解剖学的整合性の損失につながらないようにしています。

🚀 主な特徴

  • 攻撃的な検閲解除 (Heretic-X): 標準的な abliteration(拒否方向を単に削除する)とは異なり、このモデルは X レートのデータセットで訓練された修正された重み(attn.o_proj、mlp.down_proj)を使用しています。これにより、ビデオトランスフォーマーに「より大声で自信のある」信号を送信し、しばしば「凍結した」I2V 生成の解決策となります。

  • 高精細レイヤ保護(安定化装置): 攻撃的なファインチューニングは動画で「溶けた」顔を引き起こすことがあります。このバージョンでは混合精度戦略を採用:重要な入力レイヤ(0-1)と最終出力レイヤ(44-47)、およびすべての LayerNorm とバイアスBF16 で保持しています。これにより、顔の特徴の対称性を維持しつつ、体や背景のダイナミックな動きを可能にします。

  • 真のスタンドアロン (.safetensors): 組み込みの spiece_model テンソルを含みます。ComfyUI(LTX-2)で外部の tokenizer.model ファイルや複雑なフォルダ構造を必要とせずに、シングルファイルのプラグアンドプレイソリューションとして動作します。

  • 外科的抽出: LTX-2 が使用しない 20GB 以上の Vision-Tower 重みを削除し、VRAM と読み込み時間を節約しつつ、24GB BF16 ソースのフル48層のテキスト知性を保持しています。

🛠 ComfyUI での使用方法

  1. .safetensors ファイルを ComfyUI/models/text_encoders/ フォルダに配置してください。

  2. LTX-2 のワークフロー(DualCLIPLoader)でこのモデルを選択してください。

  3. 推奨 Dtype: weight_dtype を fp8_e4m3fn に設定してください(重要なレイヤーは自動的に BF16 で保持されます)。

  4. プロンプティングのヒント: このモデルはプロンプトの最初に「行動動詞」を含むと非常に反応が良くなります。標準モデルよりも低い CFG スケールで動きを生成できます。

📊 技術的背景

なぜ Heretic-X が動画に適しているのか?
LTX-2(特に Dev バージョン)は、テキスト埋め込みが中立的になりすぎると「モーション崩壊」(凍結した動画)を起こすことがよくあります。Heretic-X は埋め込みに高い分散性を提供します。

なぜこの量子化手法なのか?
Heretic モデルの標準的な FP8 変換では、攻撃的な重みが量子化中にクリップされ、「奇妙な」アーティファクトが発生することがよくあります。最終4層(44-47)を BF16 で保護することで、ビデオトランスフォーマーに送られる最終的な命令が高精度な空間整列を維持し、動的なクリップでよく見られる「不気味な谷」効果を防止します。

クレジット

  • ベースモデル: Google Gemma 3

  • Heretic ファインチューニング: LastRef

  • 最適化・アーキテクチャ修正: Sikaworld

v1.0

Gemma-3-12B-it-Abliterated (Sikaworld 高精細版)

これは、完全に検閲解除(abliterated) された LTX-2 音声映像モデル用の専用テキストエンコーダーです。

標準的な FP8 変換では、画像から動画(I2V)ワークフローで「凍結した」動画、顔のずれ、解剖学的非対称性がよく発生しますが、このバージョンは元のモデルの知性と安定性を保つために外科的に最適化されています。

🚀 主な特徴

  • 検閲解除の自由: Maxime Labonne による abliteration 技術に基づいています。このモデルは複雑または「センシティブ」なプロンプトを拒否することなく処理し、高運動量動画生成に必要な強いベクトル信号を提供します。

  • 高精細レイヤ保護: 激しい FP8 量子化とは異なり、このバージョンは混合精度戦略を採用しています。重要な入力レイヤ(0-1)と最終出力レイヤ(44-47)、およびすべての LayerNorm とバイアスを BF16 で保持しています。これにより、LTX-2 でよく見られる「顔のずれ」と「非対称性」の問題を特定的に解決します。

  • 真のスタンドアロン (.safetensors): 組み込みの spiece_model テンソルを含みます。外部の tokenizer.model ファイルを必要とせずに、ComfyUI でシングルファイルのプラグアンドプレイソリューションとして動作します。

  • FP32 ソース: FP8/BF16 ハイブリッド変換中の丸め精度を最大限に保つために、元の 47GB FP32 シャードから直接変換されています。

🛠 ComfyUI での使用方法

  1. .safetensors ファイルを ComfyUI/models/text_encoders/ フォルダに配置してください。

  2. LTX-2 のワークフローで DualCLIPLoader または専用の LTXV Text Encoder Loader を使用してください。

  3. ヒント: 最も良い動きを得るには、ネガティブプロンプトを空にし、ポジティブプロンプトに行動とダイナミクスに焦点を当ててください。

📊 技術的背景

標準的な 8 ビット量子化は、動画モデルの時間的整合性に必要な繊細な信号を「鈍らせ」がちです。48層のスタックの「ナビゲーション」レイヤー(開始と終了)を BF16 で保護することで、このエンコーダーは LTX-2 トランスフォーマーにはるかに「大声で安定した」動きコマンドを提供します。

クレジット

  • Abliteration: mlabonne

  • 最適化・量子化: Sikaworld

このモデルで生成された画像

画像が見つかりません。