ArtiWaifu Diffusion

세부 정보

파일 다운로드

모델 설명

ArtiWaifu Diffusion

우리는 미적으로 매력적이며 정확하게 복원된 애니메이션 스타일 일러스트를 생성하도록 설계된 ArtiWaifu Diffusion 모델을 출시했습니다.

AWA Diffusion은 Stable Diffusion XL 모델의 개선 버전으로, 9,000개 이상의 예술 스타일6,000개 이상의 애니메이션 캐릭터(버전 2.0)를 숙련하고, 트리거 단어를 통해 이미지를 생성합니다.

애니메이션 전용 이미지 생성 모델로서, AWA Diffusion은 높은 식별성을 가진 스타일과 캐릭터를 생성하면서도 일관되게 높은 미적 표현력을 유지하는 고품질 애니메이션 이미지를 생성하는 데 탁월합니다.

뉴스

  • 2024/08/31: 📢 발표: 각 버전의 트리거 단어 목록이 모델 페이지 오른쪽에 위치한 이 버전에 대해 패널로 이동되었습니다.

  • 2024/08/30: ArtiWaifu Diffusion 2.0 버전이 CivitAI, HuggingFace, LiblibAI (ShakkerAI) 및 TensorArt에서 출시되었습니다.

모델 세부 정보

AWA Diffusion 모델은 Stable Diffusion XL에서 미세 조정되었으며, 인기 있는 것부터 소수의 것까지 다양한 애니메이션 개념을 포함하는 250만(버전 2.0) 개의 고품질 애니메이션 이미지로 구성된 선택된 데이터셋을 사용합니다. AWA Diffusion은 최신 훈련 전략을 사용하여 사용자가 높은 품질과 미적 표현을 유지하면서 특정 캐릭터나 스타일의 이미지를 쉽게 생성할 수 있도록 지원합니다.

사용 가이드

이 가이드는 (i) 모델의 권장 사용 방법과 프롬프트 작성 전략을 소개하여 생성에 대한 제안을 제공하고, (ii) 모델 사용을 위한 참조 문서로 기능하여 트리거 단어, 품질 태그, 레이팅 태그, 스타일 태그 및 캐릭터 태그의 작성 패턴과 전략을 상세히 설명합니다.

기본 사용법

  • CFG 스케일: 5-11. 권장값은 7.5입니다.

  • 해상도: 1024x1024 근처의 면적(가로 x 세로). 256x256 미만이 되지 않으며, 가로와 세로 모두 32의 배수인 해상도.

  • 샘플링 방식: Euler A (20+ 스텝) 또는 DPM++ 2M Karras (~35 스텝)

특수한 훈련 방법으로 인해 AWA의 최적 추론 단계 수는 일반적인 값보다 높습니다. 추론 단계가 증가할수록 생성된 이미지의 품질이 지속적으로 향상됩니다...

질문: 왜 표준 SDXL 해상도를 사용하지 않나요?

💡 답변: 훈련에 사용된 버킷 알고리즘이 고정된 버킷 세트를 따르지 않기 때문입니다. 이는 위치 인코딩과 일치하지 않지만, 부정적인 영향은 관찰되지 않았습니다.

프롬프트 작성 전략

모든 텍스트-이미지 확산 모델은 프롬프트에 매우 민감하며, AWA Diffusion도 예외가 아닙니다. 프롬프트에서 철자 오류나 공백을 밑줄로 대체하는 것만으로도 생성 결과에 영향을 줄 수 있습니다. AWA Diffusion은 사용자가 컴마 + 공백(,)으로 구분된 태그 형식으로 프롬프트를 작성하도록 장려합니다. 모델은 자연어 설명이나 태그와 자연어의 혼합도 지원하지만, 태그 단위 형식이 더 안정적이고 사용하기 편리합니다.

특정 ACG 개념(예: 캐릭터, 스타일, 장면 등)을 설명할 때, 사용자는 Danbooru 태그에서 태그를 선택하고 Danbooru 태그의 밑줄 _을 공백으로 대체하여 모델이 요구 사항을 정확히 이해하도록 권장합니다. 예: bishop_(chess)bishop (chess)로 작성해야 하며, 괄호를 사용하여 프롬프트 가중치를 조정하는 AUTOMATIC1111 WebUI와 같은 추론 도구에서는 태그 내의 모든 괄호를 이스케이프해야 합니다. 즉, bishop \(chess\)로 작성합니다.

태그 순서

AWA Diffusion을 포함해 대부분의 확산 모델은 논리적으로 정렬된 태그를 더 잘 이해합니다. 태그 순서가 필수는 아니지만, 모델이 사용자의 의도를 더 잘 파악하는 데 도움이 됩니다. 일반적으로 태그 순서가 앞일수록 생성에 미치는 영향이 큽니다.

다음은 태그 순서의 예입니다. 이 예시는 스타일과 주제가 이미지에서 가장 중요하므로 예술 스타일 태그캐릭터 태그를 우선 배치하고, 그 다음 중요도 순으로 다른 태그를 추가하며, 마지막으로 미적 태그와 품질 태그를 이미지의 미적 표현을 강조하기 위해 끝에 배치합니다:

예술 스타일 (by xxx) → 캐릭터 (1 frieren (sousou no frieren)) → 인종 (elf) → 구성 (cowboy shot) → 페인팅 스타일 (impasto) → 주제 (fantasy theme) → 주 배경 (in the forest, at day) → 배경 (gradient background) → 동작 (sitting on ground) → 표정 (expressionless) → 주요 특징 (white hair) → 기타 특징 (twintails, green eyes, parted lip) → 의상 (wearing a white dress) → 의상 액세서리 (frills) → 기타 아이템 (holding a magic wand) → 보조 배경 (grass, sunshine) → 미적 표현 (beautiful color, detailed) → 품질 (best quality) → 보조 설명 (birds, cloud, butterfly)

태그 순서는 고정된 것이 아닙니다. 프롬프트 작성에 유연성을 갖추면 더 나은 결과를 얻을 수 있습니다. 예를 들어, 특정 개념(예: 스타일)의 효과가 너무 강해 이미지의 미적 매력을 저해한다면, 그 태그를 뒤로 옮겨 그 영향력을 줄일 수 있습니다.

부정적 프롬프트

AWA Diffusion에서는 부정적 프롬프트가 필수는 아닙니다. 부정적 프롬프트를 사용하더라도, 부정적 단어가 많을수록 더 좋은 것은 아닙니다. 부정적 프롬프트는 가능한 한 간결하고 모델이 쉽게 인식할 수 있어야 합니다. 과도한 부정적 단어는 생성 결과가 더 나빠질 수 있습니다. 아래는 부정적 프롬프트를 사용하는 권장 시나리오입니다:

  1. 워터마크: signature, logo, artist name;

  2. 품질: worst quality, lowres, ugly, abstract;

  3. 스타일: real life, 3d, celluloid, sketch, draft;

  4. 인체 해부학: deformed hand, fused fingers, extra limbs, extra arms, missing arm, extra legs, missing leg, extra digits, fewer digits.

트리거 단어

생성하고자 하는 개념을 모델에 알리기 위해 프롬프트에 트리거 단어를 추가하세요. 트리거 단어에는 캐릭터 이름, 예술 스타일, 장면, 동작, 품질 등이 포함될 수 있습니다.

주의: 트리거 단어 전체 목록은 각 버전의 모델 세부 정보 를 참조하세요.

트리거 단어 팁

  1. 철자 오류: 모델은 트리거 단어의 철자에 매우 민감합니다. 단 하나의 글자 차이만으로도 트리거가 실패하거나 예상치 못한 결과를 초래할 수 있습니다.

  2. 괄호 이스케이프: AUTOMATIC1111 WebUI와 같은 괄호를 사용하여 프롬프트 가중치를 조정하는 추론 도구를 사용할 때, 트리거 단어 내의 괄호를 이스케이프해야 합니다. 예: 1lucy(cyberpunk)1lucy \(cyberpunk\).

  3. 트리거 효과 미리보기: Danbooru에서 태그를 검색하여 태그의 의미와 사용법을 미리 파악할 수 있습니다.

스타일 태그

스타일 태그는 페인팅 스타일 태그와 예술 스타일 태그로 나뉩니다. 페인팅 스타일 태그는 이미지에 사용된 페인팅 기법이나 매체를 설명하며, 예: 유화, 수채화, 평면 색상, 임파스토 등입니다. 예술 스타일 태그는 이미지의 작가가 지닌 예술적 스타일을 나타냅니다.

AWA Diffusion은 다음 페인팅 스타일 태그를 지원합니다:

  • Danbooru 태그에 존재하는 페인팅 스타일 태그, 예: oil painting, watercolor, flat color 등;

  • AID XL 0.8에서 지원하는 모든 페인팅 스타일 태그, 예: flat-pasto 등;

  • Neta Art XL 1.0에서 지원하는 모든 스타일 태그, 예: gufeng 등;

  • 기타 태그, 예: by trickortreat 등;

AWA Diffusion은 다음 예술 스타일 태그를 지원합니다:

  • Danbooru 태그에 존재하는 예술 스타일 태그, 예: byyoneyama mai, bywlop 등;

  • AID XL 0.8에서 지원하는 모든 예술 스타일 태그, 예: byantifreeze3, by7thknights 등;

태그 저장소 내 태그 수가 많을수록 예술 스타일이 더 철저하게 훈련되었으며, 생성 시 정확도도 높아집니다. 일반적으로 태그 수가 50개 이상인 예술 스타일 태그가 더 나은 생성 결과를 제공합니다.

스타일 태그 팁

  1. 강도 조정: 프롬프트에서 스타일 태그의 순서나 가중치를 조정하여 스타일의 강도를 조절할 수 있습니다. 스타일 태그를 앞에 배치하면 효과가 증가하고, 뒤에 배치하면 효과가 줄어듭니다.

질문: 예술 스타일 태그에 왜 by 접두사를 사용하나요?

💡 답변: 특정 예술 스타일을 생성하길 원한다는 것을 모델에 명확히 전달하기 위해, 예술 스타일 태그에는 by 접두사를 포함하는 것이 권장됩니다. 이는 byxxxxxx를 구분하기 위함이며, 특히 xxx 자체가 다른 의미를 가질 때 유용합니다. 예: dino는 공룡을 의미할 수도 있고, 작가 이름을 의미할 수도 있습니다. 마찬가지로, 캐릭터를 트리거할 때는 캐릭터 트리거 단어 앞에 1을 접두사로 추가하세요.

캐릭터 태그

캐릭터 태그는 생성된 이미지의 캐릭터 IP를 설명합니다. 캐릭터 태그를 사용하면 모델이 캐릭터의 외형적 특징을 생성하도록 유도합니다.

캐릭터 태그도 캐릭터 태그 목록에서 가져와야 합니다. 특정 캐릭터를 생성하려면, 태그 저장소에서 해당 트리거 단어를 찾아 트리거 단어 내의 모든 밑줄 _을 공백으로 바꾸고, 캐릭터 이름 앞에 1을 붙입니다. 예: 1ayanami rei는 애니메이션 "EVA"의 캐릭터 아야나미 레이를 생성하도록 모델을 트리거하며, 이는 Danbooru 태그 ayanami_rei에 해당합니다; 1asuna(sao)는 "Sword Art Online"의 아수나 캐릭터를 생성하도록 트리거하며, 이는 Danbooru 태그 asuna_(sao)에 해당합니다.

태그 저장소 내 태그 수가 많을수록 캐릭터는 더 철저하게 훈련되었으며, 생성 정확도도 높아집니다. 일반적으로 태그 수가 100개 이상인 캐릭터 태그가 더 나은 생성 결과를 제공합니다.

캐릭터 태그 팁

  1. 캐릭터 의상: 더 유연한 캐릭터 의상 생성을 위해, 캐릭터 태그는 모델이 캐릭터의 공식 복장을 그려내도록 의도적으로 유도하지 않습니다. 특정 공식 복장으로 캐릭터를 생성하려면, 트리거 단어 외에도 프롬프트에 복장 설명을 추가해야 합니다. 예: "1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent".

  2. 시리즈 표기: 일부 캐릭터 태그는 캐릭터 이름 뒤에 추가 괄호로 표기를 포함합니다. 괄호와 그 안의 표기는 절대 생략할 수 없습니다. 예: 1 lucy (cyberpunk)1 lucy로 작성할 수 없습니다. 그 외에는 캐릭터 태그 뒤에 캐릭터가 속한 시리즈 태그를 추가할 필요가 없습니다.

  3. 기존 문제 1: 특정 캐릭터를 생성할 때, 의문의 특징 왜곡이 발생할 수 있습니다. 예: 1 asui tsuyu로 "My Hero Academia"의 아스이ツユ를 트리거하면 눈 사이에 추가적인 검은 선이 생길 수 있습니다. 이는 모델이 크고 둥근 눈을 안경으로 오해하기 때문인데, 이 문제를 피하려면 부정적 프롬프트에 glasses를 포함해야 합니다.

  4. 기존 문제 2: 덜 인기 있는 캐릭터를 생성할 때, AWA Diffusion은 데이터/훈련 부족으로 인해 특징 복원이 불완전한 이미지를 생성할 수 있습니다. 이 경우 캐릭터 이름뿐 아니라 캐릭터의 출처, 인종, 머리색, 복장 등을 프롬프트에 자세히 설명하는 것을 권장합니다.

  5. 기존 문제 3: 일부 캐릭터 태그는 스타일을 포함하고 있으며, 일부는 너무 강력해 겹치는 문제가 발생할 수 있습니다. 이 문제를 완화하려면 캐릭터 태그의 가중치를 낮추세요. 예: frieren(frieren:0.8).

캐릭터 태그 트리거 예시

  • 1 lucy (cyberpunk)✅ 올바른 캐릭터 태그

  • 1 lucy❌ 괄호 표기 누락

  • 1 lucy (cyber)❌ 잘못된 괄호 표기

  • lucy (cyberpunk)1 접두사 누락

  • 1 lucy (cyberpunk❌ 괄호가 닫히지 않음

  • 1 lucky (cyberpunk)❌ 철자 오류

  • 1 lucy (cyberpunk: edgerunners)❌ 괄호 표기가 요구되는 캐릭터 태그 형식을 따르지 않음

질문: 일부 캐릭터 태그는 lucy (cyberpunk)처럼 괄호 표기를 포함하지만, frieren처럼 괄호 표기가 없는 이유는 무엇인가요?

💡 답변: 서로 다른 작품에서 동일한 이름을 가진 캐릭터가 있을 수 있습니다. 예: "Sword Art Online"과 "Blue Archive"에 있는 아수나. 이러한 동일한 이름의 캐릭터를 구분하기 위해, 캐릭터 이름에 작품 이름을 표기해야 합니다. 이름이 너무 길면 줄여서 표기할 수 있습니다. frieren처럼 현재 중복되지 않는 고유한 이름을 가진 캐릭터의 경우 특별한 표기가 필요 없습니다.

품질 태그 및 미적 태그

AWA Diffusion에서 긍정적 프롬프트에 품질 설명을 포함하는 것은 매우 중요합니다. 품질 설명은 품질 태그와 미적 태그와 관련됩니다.

품질 태그는 생성된 이미지의 미적 품질을 직접적으로 설명하며, 디테일, 텍스처, 인체 해부학, 조명, 색상 등에 영향을 미칩니다. 품질 태그를 추가하면 모델이 더 높은 품질의 이미지를 생성하는 데 도움이 됩니다. 품질 태그는 다음 순서로 최고에서 최저로 등급이 매겨집니다:

놀라운 품질 -> 최고 품질 -> 높은 품질 -> 일반 품질 -> 낮은 품질 -> 최악의 품질

미적 태그는 생성된 이미지의 미적 특징을 설명하여 모델이 예술적으로 매력적인 이미지를 생성하도록 돕습니다. 투시도, 조명과 그림자와 같은 일반적인 미적 단어 외에도, AWA Diffusion은 아름다운 색상, 세부적, 미적과 같은 미적 트리거 단어에 효과적으로 반응하도록 특별히 학습되었습니다. 이 단어들은 각각 매력적인 색상, 세부 표현 및 전반적인 아름다움을 나타냅니다.

품질을 설명하는 권장 일반적 방법은 다음과 같습니다: <당신의 프롬프트>, 아름다운 색상, 세부적, 놀라운 품질

품질 및 미적 태그 팁

  1. 태그 수량: 품질 태그는 하나만 필요하며, 여러 미적 태그를 추가할 수 있습니다.

  2. 태그 위치: 품질 및 미적 태그의 위치는 고정되어 있지 않지만, 일반적으로 프롬프트의 끝에 배치됩니다.

  3. 상대적 품질: 품질에 절대적인 계층 구조는 없으며, 암시된 품질은 일반적인 미적 기준과 일치하며, 사용자마다 품질에 대한 인식이 다를 수 있습니다.

등급 태그

등급 태그는 생성된 이미지의 내용 노출 수준을 설명합니다. 등급 태그는 다음 순서로 최고에서 최저로 등급이 매겨집니다:

등급: 일반(또는 안전) -> 등급: 암시적 -> 등급: 의심스러움 -> 등급: 명시적(또는 NSFW)

프롬프트 예시

예시 1

A

by yoneyama mai, 1 frieren, 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color, amazing quality

  1. by yoneyama mai는 Yoneyama Mai의 예술적 스타일을 트리거하며, 효과를 강화하기 위해 앞부분에 배치됩니다.

  2. 1 frieren은 애니메이션 "Frieren at the Funeral"의 캐릭터 Frieren을 트리거합니다.

  3. beautiful color는 생성된 이미지의 아름다운 색상을 설명합니다.

  4. amazing quality는 생성된 이미지의 놀라운 품질을 설명합니다.

B

by nixeu, 1 lucy (cyberpunk), 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed, best quality

예시 2: 스타일 혼합

다양한 스타일 태그를 중첩하면 여러 스타일의 특징을 가진 이미지를 생성할 수 있습니다.

A 단순 혼합

by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

B 가중 혼합

AUTOMATIC1111 WebUI 프롬프트 가중치 구문(괄호 가중치)을 사용하여 다양한 스타일 태그에 가중치를 두어 생성되는 이미지의 스타일을 더 잘 제어합니다.

(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

C 고급 혼합

AUTOMATIC1111 WebUI 프롬프트 가중치 구문(괄호 가중치)을 사용하여 | 기호를 통해 두 단어를 직접 혼합할 수 있습니다.

(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

예시 3: 다중 캐릭터 장면

프롬프트에 여러 캐릭터 태그를 추가하면 동일한 프레임 내에서 다중 캐릭터가 포함된 이미지를 생성할 수 있습니다. 다른 유사한 모델과 비교해 AWA는 다중 캐릭터 장면에서 더 우수한 성능을 보이지만 여전히 불안정합니다.

A 혼성 장면

1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality

B 동성 장면

2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality

향후 계획

AWA Diffusion은 고급 미적 감각과 포괄적 지식을 결합할 것으로 예상됩니다. 전통적인 AI가 가진 윤기 있는 느낌을 가지지 않으며, 지식이 부족한 꽃병이 되지 않아야 합니다. 우리는 더 고급화된 훈련 기법과 전략을 지속적으로 탐구하여 모델의 품질을 개선해 나갈 것입니다.

우리를 지원해 주세요

AWA Diffusion의 훈련에는 막대한 비용이 소요됩니다. 저희 작업에 감사하신다면, Ko-fi를 통해 저희를 지원해 주세요. 연구 및 개발 활동을 돕기 위함입니다. 좋아요와 지원에 감사드립니다!

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.