我々は、事前学習されたテキストから画像への拡散モデルに画像プロンプト機能を実現するための効果的で軽量なアダプタ、IP-Adapterを提示する。たった22Mのパラメータを持つIP-Adapterは、微調整された画像プロンプトモデルと同等、あるいはそれ以上のパフォーマンスを達成できる。IP-Adapterは、同じベースモデルから微調整された他のカスタムモデルに加え、既存の制御ツールを用いた制御生成にも一般化可能である。さらに、画像プロンプトはテキストプロンプトと組み合わせることで、マルチモーダルな画像生成をしっかりと実現できる。