Gigafractal Diffusion SD2

详情

模型描述

最初发布于 HuggingFace,作者:kabachuha

Gigafractal2 Diffusion 是一个基于原始 StabilityAI Stable Diffusion v2.0 的潜在文本到图像扩散模型,并使用 Dreambooth 在 40 张由名为“Disco Diffusion”的另一款扩散模型生成的图像上进行了微调。该模型旨在探索 Dreambooth 训练的潜力与局限性,通过显著增加训练步数,并克服文本编码器词元关联带来的模型偏差。此模型的目的是呈现 Disco Diffusion 中特有的生物形态分形艺术效果,同时避免对“迪斯科派对”以及特别“迪斯科球”产生的过度偏向。[由 snek 所创作的模型] 以其对这些元素的偏好而闻名。

Dreambooth 超参数设置

export MODEL_NAME="stabilityai/stable-diffusion-2"

export INSTANCE_DIR="/home/{USERNAME}/kml/datasets/styles/dscdif"

export CLASS_DIR="/home/{USERNAME}/kml/datasets/styles/dscdif2"

export OUTPUT_DIR="/home/{USERNAME}/kml/models1"

accelerate launch train_dreambooth.py \

--pretrained_model_name_or_path=$MODEL_NAME \

--instance_data_dir=$INSTANCE_DIR \

--class_data_dir=$CLASS_DIR \

--output_dir=$OUTPUT_DIR \

--with_prior_preservation --prior_loss_weight=1.0 \

--instance_prompt="gigafractal artstyle" \

--class_prompt="biomorphic" \

--resolution=768 \

--train_batch_size=1 \

--gradient_accumulation_steps=1 \

--learning_rate=1e-6 \

--lr_scheduler="constant" \

--lr_warmup_steps=0 \

--num_class_images=200 \

--max_train_steps=2040 \

--mixed_precision 'no' \

--train_text_encoder

用于正则化的 200 张 AI 生成图像数据集是在 AUTOMATIC1111 的 WebUI 中通过如下提示词生成的,这一设置可能对最终输出质量产生了积极影响。

许可协议

该模型为开放获取,对所有人开放,其使用权利和限制由 CreativeML OpenRAIL-M 许可证进一步明确。CreativeML OpenRAIL 许可证规定:

  • 你不得故意使用该模型生成或分享非法或有害的内容或输出。
  • 作者不对您所生成的输出拥有任何权利,您可以自由使用这些输出,但需对使用行为负责,且不得违反本许可协议中的规定。
  • 您可以将模型权重重新分发或用于商业用途及服务。若如此,请注意必须包含本许可协议中的使用限制,并向所有用户共享一份 CreativeML OpenRAIL-M 许可证(请完整且仔细阅读许可协议)。

请在此处阅读完整许可协议

下游应用场景

该模型可用于娱乐目的,也可作为生成艺术创作的助手。

致谢

  • snek 的工作 启发
  • 本项目若无 CompVis 研究人员、Disco Diffusion 开发者、Deforum 团队以及所有为训练内容创作提供素材的艺术家(即使这些创作是由 AI 完成的)的杰出贡献,将不可能实现。
  • 作者感谢 snek 提供的数据集。

主观意见:该模型生成图像的质量与另一款文本到图像生成器 Midjourney 相当。

此模型生成的图像

未找到图像。