Qwen-Image-Edit

詳細

ファイルをダウンロード

モデル説明

Qwen-Image-Editをご紹介します。これは、Qwen-Imageの画像編集版であり、200億パラメータのQwen-Imageモデルを基盤として構築されています。Qwen-Image-Editは、Qwen-Imageの独自のテキスト描画機能を画像編集タスクに拡張し、正確なテキスト編集を可能にします。さらに、Qwen-Image-Editは入力画像を同時にQwen2.5-VL(視覚的意味制御用)とVAEエンコーダー(視覚的外観制御用)に投入することで、意味的および外観的な編集機能を実現しています。

主な特徴:

  • 意味的・外観的編集:Qwen-Image-Editは、低レベルの視覚的外観編集(要素の追加・削除・変更を行い、画像の他の領域は完全に変更しないこと)と高レベルの視覚的意味編集(IP作成、オブジェクトの回転、スタイル変換など、全体的なピクセル変更を許可しつつ意味的一貫性を維持する)の両方をサポートします。

  • 正確なテキスト編集:Qwen-Image-Editは中国語と英語の両方のテキスト編集をサポートし、元のフォント、サイズ、スタイルを維持しながら、画像内でのテキストの直接的な追加・削除・変更が可能です。

  • 強力なベンチマーク性能:複数の公開ベンチマークでの評価により、Qwen-Image-Editは画像編集タスクで最先端(SOTA)の性能を達成し、画像編集の強力な基盤モデルであることを確立しています。

機能紹介

Qwen-Image-Editの目玉機能の一つは、その強力な意味的・外観的編集能力です。意味的編集とは、元の視覚的意味を維持しながら画像コンテンツを変更することを指します。この機能を直感的に示すために、Qwenのマスコットであるカピバラを例に挙げます:

カピバラ

ご覧の通り、編集後の画像(右)の大多数のピクセルは入力画像(左)と異なりますが、カピバラのキャラクターの一貫性は完璧に保たれています。Qwen-Image-Editの強力な意味的編集機能により、オリジナルIPコンテンツを容易かつ多様に作成できます。さらに、Qwen Chatでは、16のMBTI性格タイプをテーマにした一連の編集プロンプトを設計しました。これらのプロンプトを活用し、マスコットのカピバラを基にしたMBTIテーマの絵文字パックを成功裏に作成し、IPの拡張性と表現力を高めました。

MBTIミームシリーズ

さらに、意味的編集における新しい応用例として、ニュービューサンセシスがあります。以下の2つの例画像のように、Qwen-Image-Editはオブジェクトを90度回転させるだけでなく、180度完全に回転させることで、オブジェクトの背面を直接見ることができます:

視点変換 90度視点変換 180度

意味的編集のもう一つの代表的な応用はスタイル転送です。たとえば、入力された肖像画に対して、Qwen-Image-Editはスタジオジブリのようなさまざまな芸術スタイルに簡単に変換できます。この機能はバーチャルアバター作成などの応用において非常に価値があります:

スタイル転送

意味的編集に加え、外観的編集も一般的な画像編集要件です。外観的編集は、画像の特定領域を完全に変更せず、特定の要素を追加・削除・変更することを強調します。以下の画像は、風景に看板を追加するケースを示しています。図のように、Qwen-Image-Editは看板をただ挿入するだけでなく、対応する反射も生成しており、細部への驚異的な注意が示されています。

看板の追加

以下にもう一つの興味深い例を示します。これは、画像から細かい髪の毛や小さなオブジェクトを削除する方法を示しています。

髪の毛の削除

さらに、画像内の特定の文字「n」の色を青に変更することも可能で、特定の要素を精密に編集できます。

テキスト色の変更

外観的編集は、人物の背景の調整や服の変更など、幅広いシナリオで活用できます。以下の3つの画像はそれぞれの実用的な適用例を示しています。

背景の変更服の変更

Qwen-Image-Editのもう一つの目玉機能は、Qwen-Imageのテキスト描画技術に基づく正確なテキスト編集能力です。以下のように、2つのケースはQwen-Image-Editが英語テキスト編集においてどれほど優れた性能を発揮するかを鮮明に示しています:

英語テキスト編集 1英語テキスト編集 2

Qwen-Image-Editは中国語のポスターも直接編集可能で、大見出しのテキスト修正だけでなく、小さな複雑なテキスト要素の精密な調整も実現します。

中国語ポスター編集

最後に、Qwen-Imageが生成した書道作品のエラーを段階的に修正する連鎖編集アプローチの具体的な例をご紹介します:

書道作品

この作品では、いくつかの漢字に生成エラーが含まれています。Qwen-Image-Editを活用して、段階的に修正できます。たとえば、元の画像にバウンディングボックスを描き、修正が必要な領域を特定し、Qwen-Image-Editにこれらの部分を修正するよう指示できます。ここでは、赤いボックス内に「稽」、青い領域内に「亭」を正しく描画したいとします。

漢字の修正

しかし実際には、「稽」は比較的珍しい漢字であり、モデルは一回の修正で正しく修正できませんでした。「稽」の下部右側は「日」ではなく「旨」であるべきです。この段階で、赤いボックスで「日」部分をさらに強調し、Qwen-Image-Editにこの細部を微調整し「旨」に置き換えるよう指示できます。

漢字の微調整

驚異的ではありませんか?この段階的連鎖編集アプローチにより、目的の最終結果が得られるまで、文字のエラーを継続的に修正できます。

最終版 1最終版 2最終版 3最終版 4最終版 5

このように、私たちは『蘭亭集序』の完全に正しい書道版を成功裏に得ました!まとめると、Qwen-Image-Editが画像生成の分野をさらに推進し、ビジュアルコンテンツ作成の技術的障壁を下げ、さらに革新的なアプリケーションを生み出すことを期待しています。

ライセンス契約

Qwen-Image-EditはApache 2.0ライセンスのもとで提供されています。

オリジナルテキストとモデル:https://huggingface.co/Qwen/Qwen-Image-Edit

このモデルで生成された画像

画像が見つかりません。