Gemma3-12B-Abliterated-fp8

详情

模型描述

V1.0a 实验性版本!!

重要,请阅读!!

Gemma-3-12B-Heretic-X(Sikaworld 高保真版)

这是基于 LastRef 实验性 Heretic-X 微调模型的超动态、完全无审查文本编码器,专为 LTX-2 设计。

虽然标准的“消融”版本仅移除了“拒绝”机制,但 Heretic-X 通过自定义数据集主动引导,使其具备积极描述性与无拘束性。在 LTX-2 视频生成中,这表现为显著更强的运动向量,有助于“解冻”静态视频,并在复杂场景中生成更强烈的动态效果。

本版本采用 Sikaworld 高保真量化方法,以抑制 Heretic-X 的激进特性,确保增强的动态性不会损害面部对称性或解剖结构的连贯性。

🚀 主要特性

  • 激进无审查(Heretic-X):与标准消融(仅删除拒绝方向)不同,此模型使用源自成人内容数据集训练的修改权重(attn.o_proj, mlp.down_proj),向视频变换器发送更“响亮”且更自信的信号,常能有效解决“冻结”的图像到视频(I2V)生成问题。

  • 高保真层保护(稳定器):激进微调常导致视频中面部“融化”。本版本采用混合精度策略:关键输入层(0-1)和最终输出层(44-47),以及所有 LayerNorm 和偏置项均保留为 BF16 精度。这如同安全护栏,在允许身体和背景动态运动的同时,保持面部特征对称。

  • 真正独立(.safetensors):内嵌 spiece_model 张量,可作为单文件即插即用解决方案在 ComfyUI(LTX-2)中运行,无需外部 tokenizer.model 文件或复杂文件夹结构。

  • 外科级提取:移除了超过 20GB 的视觉塔权重(LTX-2 不使用),以节省 VRAM 和加载时间,同时完整保留 24GB BF16 源模型的全部 48 层文本智能。

🛠 在 ComfyUI 中使用

  1. 将 .safetensors 文件放入 ComfyUI/models/text_encoders/ 文件夹。

  2. 在你的 LTX-2 工作流(DualCLIPLoader)中选择此模型。

  3. 推荐数据类型:将 weight_dtype 设置为 fp8_e4m3fn(关键层会自动保持为 BF16)。

  4. 提示技巧:此模型对提示词开头的“动作动词”反应极佳,生成运动效果所需的 CFG 缩放值低于标准模型。

📊 技术背景

为何选择 Heretic-X 用于视频?
LTX-2(尤其是开发版)在文本嵌入过于中性时,常出现“运动坍塌”(视频冻结)问题。Heretic-X 能提供更高方差的嵌入。

为何采用此量化方式?
Heretic 模型的标准 FP8 转换常因激进权重在量化时被截断而产生“异常”伪影。通过将最后 4 层(44-47) 保留为 BF16,我们确保发送给视频变换器的最终指令保持高精度空间对齐,从而避免动态片段中常见的“恐怖谷”效应。

致谢

  • 基础模型:Google Gemma 3

  • Heretic 微调LastRef

  • 优化与架构修复:Sikaworld

v1.0

Gemma-3-12B-it-Abliterated(Sikaworld 高保真版)

这是专为 LTX-2 音视频模型设计的完全无审查(消融) 文本编码器。

尽管标准 FP8 转换常导致图像到视频(I2V)工作流中出现“冻结”视频、面部漂移或解剖不对称,本版本经过外科级优化,保留了原始模型的智能与稳定性。

🚀 主要特性

  • 无审查自由:基于 Maxime Labonne 的消融技术。此模型可无拒绝地响应复杂或“敏感”提示,为高动态视频生成提供强向量信号。

  • 高保真层保护:不同于激进的 FP8 量化,本版本采用混合精度策略。关键输入层(0-1)和最终输出层(44-47),以及所有 LayerNorm 和偏置项均保留为 BF16 精度,专门解决 LTX-2 中常见的“面部偏移”和“不对称”问题。

  • 真正独立(.safetensors):内嵌 spiece_model 张量,可作为单文件即插即用解决方案在 ComfyUI 中运行,无需外部 tokenizer.model 文件。

  • FP32 源转换:直接从原始 47GB FP32 分片转换,确保在 FP8/BF16 混合转换过程中达到最大舍入精度。

🛠 在 ComfyUI 中使用

  1. 将 .safetensors 文件放入 ComfyUI/models/text_encoders/ 文件夹。

  2. 在你的 LTX-2 工作流中,使用 DualCLIPLoader 或专用的 LTXV 文本编码器加载器

  3. 提示:为获得最佳运动效果,请将负向提示留空,并将正向提示聚焦于动作与动态。

📊 技术背景

标准 8 位量化常会“弱化”视频模型中维持时间一致性的细微信号。通过将 BF16 保留于“导航层”(48 层堆栈的起始与末端),此编码器向 LTX-2 变换器提供更“响亮”且更稳定的运动指令。

致谢

  • 消融技术mlabonne

  • 优化与量化:Sikaworld

此模型生成的图像

未找到图像。