我们提出了IP-Adapter,一种高效且轻量的适配器,用于为预训练的文本到图像扩散模型实现图像提示能力。仅含2200万参数的IP-Adapter即可达到与微调后的图像提示模型相当甚至更好的性能。IP-Adapter不仅可泛化到从同一基础模型微调的其他自定义模型,还可用于结合现有可控工具进行可控生成。此外,图像提示还能与文本提示协同工作,实现多模态图像生成。
致谢 https://huggingface.co/h94/IP-Adapter/tree/main/models