Qwen-Image-Edit
세부 정보
파일 다운로드
모델 설명
Qwen-Image-Edit를 소개하게 되어 기쁩니다. Qwen-Image의 이미지 편집 버전인 Qwen-Image-Edit는 20B 규모의 Qwen-Image 모델을 기반으로 구축되었으며, Qwen-Image의 독특한 텍스트 렌더링 기능을 이미지 편집 작업으로 확장하여 정밀한 텍스트 편집을 가능하게 합니다. 또한 Qwen-Image-Edit는 입력 이미지를 동시에 Qwen2.5-VL(시각적 의미 제어용)과 VAE 인코더(시각적 외형 제어용)에 입력하여, 의미적 및 외형적 편집 모두를 동시에 구현합니다.
주요 기능:
의미적 및 외형적 편집: Qwen-Image-Edit는 저수준의 시각적 외형 편집(예: 요소의 추가, 제거, 수정 — 이미지의 나머지 영역은 완전히 변경되지 않아야 함)과 고수준의 시각적 의미 편집(예: IP 생성, 객체 회전, 스타일 전이 — 전체 픽셀 변경을 허용하지만 의미적 일관성은 유지)을 모두 지원합니다.
정밀한 텍스트 편집: Qwen-Image-Edit는 중국어와 영어를 포함한 양국어 텍스트 편집을 지원하며, 원본 글꼴, 크기, 스타일을 유지한 채 이미지 내 텍스트를 직접 추가, 삭제, 수정할 수 있습니다.
강력한 벤치마크 성능: 여러 공개 벤치마크에서의 평가 결과, Qwen-Image-Edit는 이미지 편집 작업에서 최첨단(SOTA) 성능을 달성했으며, 이미지 편집을 위한 강력한 기반 모델로 입증되었습니다.
쇼케이스
Qwen-Image-Edit의 핵심 강점 중 하나는 강력한 의미적 및 외형적 편집 기능입니다. 의미적 편집은 원본 시각적 의미를 유지한 채 이미지 내용을 수정하는 것을 의미합니다. 이 기능을 직관적으로 보여주기 위해, Qwen의 마스코트인 카피바라를 예로 들어보겠습니다:
보시다시피, 편집된 이미지(가장 왼쪽 이미지)의 대부분의 픽셀은 입력 이미지와 다릅니다만, 카피바라의 캐릭터 일관성은 완벽하게 유지됩니다. Qwen-Image-Edit의 강력한 의미적 편집 기능은 원본 IP 콘텐츠를 손쉽고 다양하게 생성할 수 있게 합니다. 또한 Qwen 챗에서는 16가지 MBTI 성격 유형을 중심으로 일련의 편집 프롬프트를 설계했고, 이 프롬프트를 활용해 마스코트 카피바라를 기반으로 MBTI 테마의 이모티콘 팩을 성공적으로 제작하여 IP의 확장성과 표현력을 높였습니다.
또한, 의미적 편집의 또 다른 중요한 적용 사례는 신규 시점 합성입니다. 아래 두 예시 이미지에서 볼 수 있듯이, Qwen-Image-Edit는 객체를 90도 회전할 뿐만 아니라 180도 완전 회전도 수행하여 객체 뒷면을 직접 확인할 수 있습니다:
의미적 편집의 또 다른 전형적인 활용 사례는 스타일 전이입니다. 예를 들어, 입력된 초상화를 주어진 상태에서 Qwen-Image-Edit는 Studio Ghibli와 같은 다양한 예술 스타일로 쉽게 전환할 수 있습니다. 이 기능은 가상 아바타 생성과 같은 응용 분야에서 매우 가치가 있습니다:
의미적 편집 외에도, 외형적 편집은 일반적인 이미지 편집 요구사항입니다. 외형적 편집은 특정 영역을 완전히 변경하지 않은 채, 특정 요소를 추가, 제거, 수정하는 데 중점을 둡니다. 아래 이미지에서는 장소에 간판을 추가한 사례를 보여줍니다. 보시다시피, Qwen-Image-Edit는 간판을 성공적으로 삽입할 뿐 아니라, 그에 맞는 반사 효과도 생성하여 세부 사항에 뛰어난 주의를 기울였음을 보여줍니다.
아래는 또 다른 흥미로운 예시로, 이미지에서 미세한 머리카락과 같은 작은 객체를 제거하는 방법을 보여줍니다.
또한, 이미지 내 특정한 문자 "n"의 색상을 파랑으로 수정하여 특정 요소에 대한 정밀한 편집이 가능합니다.
외형적 편집은 사람의 배경 조정이나 의상 변경 등 다양한 시나리오에 광범위하게 활용됩니다. 아래 세 개의 이미지는 각각 이러한 실제 활용 사례를 보여줍니다.
Qwen-Image-Edit의 또 다른 뛰어난 기능은 Qwen-Image의 깊이 있는 텍스트 렌더링 전문 지식에서 비롯된 정확한 텍스트 편집 능력입니다. 아래와 같이, 다음 두 사례는 Qwen-Image-Edit가 영문 텍스트 편집에서 보여주는 강력한 성능을 생생하게 보여줍니다:
Qwen-Image-Edit는 중국어 포스터도 직접 편집할 수 있으며, 대형 제목 텍스트뿐 아니라 미세하고 복잡한 텍스트 요소까지 정밀하게 조정할 수 있습니다.
마지막으로, Qwen-Image가 생성한 서예 작품의 오류를 점진적으로 교정하기 위해 연쇄 편집 접근법을 사용하는 구체적인 이미지 편집 예시를 살펴보겠습니다:
이 작품에는 몇 개의 중국어 글자에 생성 오류가 있습니다. Qwen-Image-Edit를 활용해 이를 단계적으로 교정할 수 있습니다. 예를 들어, 원본 이미지에 경계 상자를 그려 교정이 필요한 영역을 표시하고, Qwen-Image-Edit에 이 특정 영역을 수정하도록 지시할 수 있습니다. 여기서는 빨간 상자 안에 "稽" 글자가 정확히 작성되도록, 파란 영역 안에 "亭" 글자가 정확히 렌더링되도록 지시합니다.
그러나 실제에서는 "稽"라는 글자가 상대적으로 드문 글자이기 때문에, 모델이 한 번의 단계로 이를 정확히 교정하지 못했습니다. "稽"의 아래 오른쪽 구성 요소는 "日"이 아니라 "旨"여야 합니다. 이때, "日" 부분을 빨간 상자로 더 강조하여 Qwen-Image-Edit에 이 세부 사항을 미세 조정하고 "旨"로 교체하도록 지시할 수 있습니다.
놀라운가요? 이 연쇄적, 단계적 편집 방식을 통해 원하는 최종 결과가 도출될 때까지 글자 오류를 지속적으로 교정할 수 있습니다.
결국, 우리는 『蘭亭集序(낙정서)'의 완전히 정확한 서예 버전을 성공적으로 얻었습니다! 요약하자면, Qwen-Image-Edit가 이미지 생성 분야를 더욱 발전시키고, 시각 콘텐츠 제작의 기술적 장벽을 실제로 낮추며, 더 많은 혁신적 응용을 촉발하기를 희망합니다.
라이선스 계약
Qwen-Image-Edit는 Apache 2.0 라이선스 하에 제공됩니다.
원본 텍스트 및 모델: https://huggingface.co/Qwen/Qwen-Image-Edit

