ChronoEdit
详情
下载文件
模型描述
GGUF | Wan2.1 T2V LoRA:兼容(NSFW)
目前,您需要将 ComfyUI 切换至 nightly 版本,因为某些节点在稳定版中尚未提供。预计下周可能更新。压缩文件中的工作流
FP16:10GB 显存 + 64GB 内存 + Diffusion Model Loader KJ + triton
这是一个图像编辑器,它接收一张起始照片和文本指令,然后输出修改后的版本。但它借鉴了视频模型(如Wan2.1)的智能,以更好地处理运动或物理效果,将其编辑过程在内部视为一个超短“视频”,从而获得更逼真的结果。由于它基于Wan视频模型构建,因此共享相同的文本编码器及其他组件
更智能的设置:基于大型视频模型构建,实现基于时间的编辑,并加入物理智能以模拟机器人动作或物体抓取等行为,优于基础图像编辑器,能处理真实世界的动态效果。
酷炫功能:将静态图片转化为动作模拟;保持编辑结果与重力、运动等物理规律一致;支持方形或横/竖版尺寸,最高达1024x1024。
擅长领域:最适合PhysicalAI任务,如机器人规划或交互场景;在虚假世界数据上训练,因此在这些场景表现优异,但在日常图片上可能表现欠佳。
简单提示:将图像与简短文本指令(少于300字)结合,例如“让机器人真实地捡起球”。在NVIDIA GPU上运行以获得更快速度;实际使用时请添加安全检查。
基本规格:140亿参数,Diffusers格式,开放许可可用于商业用途。输入图片+文本,输出编辑后的图片,无需额外操作。


