SanaeXL anime V1.0

세부 정보

파일 다운로드

모델 설명

SanaeXL 애니메이션 V1.0

“묘래가 인정한다! 묘래가 허락한다! 묘래가 전체 SDXL을 떠안는다!!!”

"SDXL을 다시 위대하게 만들자!!!"

모델 소개 / Model Introduction

이 모델은 KXL eps rev3를 기반으로 개선된 이미지 생성 모델로, 단일 NVIDIA 4090 GPU를 사용하여 약 780만 장의 이미지로 학습되었습니다. 인물의 신체 표현이 크게 향상되어, 손가락, 발, 발가락 등 정확한 인체 구조를 더 쉽게 생성할 수 있으며, 여러 인물이 등장하는 이미지 생성 성능도 향상되었습니다. 특히 두 사람이 서로를 안는 등의 동작도 자연스럽게 생성됩니다. 예술 스타일 면에서도 더 다양해졌으며, Novel AI V3와 같이 아티스트 태그를 사용하여 원하는 예술 스타일을 생성할 수 있고, 다양한 애니메이션 캐릭터를 생성할 수 있습니다.

이 모델은 KXL eps rev3를 기반으로 개선된 이미지 생성 모델입니다. 단일 NVIDIA 4090 GPU를 사용하여 약 780만 장의 이미지로 학습되었으며, 인체의 사지 및 구조 표현이 크게 향상되었습니다. 이제 손가락, 발, 발가락 등 정확한 인체 구조를 더 쉽게 생성할 수 있고, 여러 인물이 등장하는 이미지 생성도 향상되었습니다. 특히 두 사람이 서로를 안는 등의 동작도 자연스럽게 생성됩니다. 또한 예술 스타일의 다양성이 크게 확장되었으며, Novel AI V3처럼 아티스트 태그를 사용하여 원하는 예술 스타일을 생성할 수 있고, 더 다양한 애니메이션 캐릭터를 생성할 수 있습니다.

버전 설명 \ Version Notes:

V1.3: 1.3 버전은 v1.2에 추가로 240만 장의 이미지를 학습하여 업데이트되었습니다. 이번 업데이트는 starry128.txt에 나열된 예술 스타일에 중점을 두었습니다. starry128.txt는 철저히 선정된 아티스트 목록입니다(자세한 내용은 아래 참조). 학습을 통해 starry128 목록의 예술 스타일이 크게 향상되고 최적화되었습니다. 사용자는 starry128.txt 문서(다운로드 링크 제공)를 다운로드하여 워일드카드로 활용하는 것을 강력히 권장합니다. 이미지 어노테이션은 flo2 및 WD(자연어 + 태그)를 사용하므로 프롬프트는 자연어와 태그를 혼합하여 사용할 수 있습니다.

V1.3: 버전 1.3은 v1.2에 추가로 240만 장의 이미지를 학습하여 개선된 버전입니다. 이번 업데이트는 starry128.txt에 나열된 예술 스타일 강화에 초점을 맞췄습니다. starry128.txt는 철저히 선정된 아티스트 목록입니다(자세한 내용은 아래 참조). 학습을 통해 starry128 내 예술 스타일이 크게 향상되고 최적화되었습니다. 사용자는 starry128.txt 문서(다운로드 링크 제공)를 다운로드하여 워일드카드로 활용하는 것을 강력히 권장합니다. 이미지 어노테이션은 flo2 및 WD(자연어 + 태그)를 사용하므로 프롬프트는 자연어와 태그를 혼합하여 사용할 수 있습니다.

v1.2: 1.2는 v1.1에 추가로 220만 장의 이미지를 학습한 개선 버전으로, 원신과 젠네스 존 제로 등 더 많은 캐릭터를 추가했습니다.

v1.2: 1.2는 v1.1에 추가로 220만 장의 이미지를 학습한 개선 버전으로, 원신과 젠네스 존 제로 등 더 많은 캐릭터를 추가했습니다.

v1.1:1.1은 v1.0에 추가로 140만 장의 이미지를 학습한 개선 버전으로, 더 많은 아티스트를 추가했습니다. 또한 v1.1은 발생성, 특히 발바닥 표현을 특별히 최적화했습니다. 또한, 다인물 장면의 품질 저하 원인이 'comic' 스타일임을 발견했습니다. 부정 프롬프트에 'comic' 및 'multiple views' 태그를 높은 가중치로 추가하면(예: (comic:1.8),(multiple views:1.4)), 다인물 장면의 구도 오류를 효과적으로 개선할 수 있습니다.

v1.1:1.1은 v1.0에 추가로 140만 장의 이미지를 학습한 개선 버전으로, 더 많은 아티스트를 추가했습니다. 또한 v1.1은 발생성, 특히 발바닥 표현을 특별히 최적화했습니다. 또한, 다인물 장면의 품질 저하 원인이 'comic' 스타일임을 발견했습니다. 부정 프롬프트에 'comic' 및 'multiple views' 태그를 높은 가중치로 추가하면(예: (comic:1.8),(multiple views:1.4)), 다인물 장면의 구도 오류를 효과적으로 개선할 수 있습니다.

v1.0 :1.0은 초기 버전으로 약 780만 장의 이미지로 학습되었습니다.
v1.0:1.0은 초기 버전으로 약 780만 장의 이미지로 학습되었습니다.

권장 설정/Recommended settings(무조건 DTG 사용!!!)

프롬프트:

<1girl/1boy/1other/...>,

, , ,

,

masterpiece,best quality,absurdres,highres,sensitive,newest,

부정 프롬프트(단축형) :

lowres,low quality, worst quality, normal quality, text, signature, jpeg artifacts, bad anatomy, old, early, multiple views, copyright name, watermark, artist name, signature

부정 프롬프트(장문형) :

lowres,bad anatomy,blurry,(worst quality:1.8),low quality,hands bad,(normal quality:1.3),bad hands,mutated hands and fingers,extra legs,extra arms,duplicate,cropped,jpeg,artifacts,blurry,multiple view,reference sheet,long body,multiple breasts,mutated,bad anatomy,disfigured,bad proportions,bad feet,ugly,text font ui,missing limb,monochrome,bad anatomy,blurry,(worst quality:1.8),low quality,hands bad,face bad,(normal quality:1.3),bad hands,mutated hands and fingers,extra legs,extra arms,duplicate,cropped,jpeg,artifacts,blurry,multiple view,long body,multiple breasts,mutated,disfigured,bad proportions,duplicate,bad feet,ugly,missing limb,

샘플러: Euler A

스텝: 30

CFG: 5~9

업스케일러: Latent

Hires 스텝: 25

디노이징 강도: 0.6

부정 프롬프트에는 반드시 lowres를 포함해야 합니다(저해상도 이미지를 대량으로 학습했기 때문). "worst quality" 및 "low quality"는 개인 취향에 따라 선택적으로 추가할 수 있습니다. 예시 이미지에 제공된 장문형 부정 프롬프트를 사용하는 것도 가능합니다. 이 프롬프트는 내부 테스트 시 사용된 것으로, 매우 복잡하고 비효율적이며 효과가 확실하지 않지만, "작동은 합니다."

Negative prompts must include: lowres (due to the use of a large number of low-resolution images for training). "worst quality" and "low quality" can be added based on personal preference. You can also use the negative prompts (long) shown in the example images. This string of prompts was used by internal members during testing. It is quite "shitty", and we cannot confirm its effectiveness, but "it just works."

예: 코치야 사나에 이미지를 생성하려면 다음과 같은 프롬프트를 사용할 수 있습니다(줄바꿈은 필수 아님):

For example, to generate an image of Sanae Kochiya, you can use the following prompt (line breaks are optional):

1girl,

kochiya sanae, touhou

ask \(askzy\),

solo,green hair, green eyes,

masterpiece,best quality, absurdres,newest,safe,highres

DTG(Danbooru Tag Generator)

Stable Diffusion 모델을 사용해 캐릭터 이미지를 생성할 때, 학습 데이터 및 방법의 특성상 캐릭터 이름과 특징 태그(tag)를 함께 제공하는 것이 좋습니다. 캐릭터 이름만 제공하고 특징 태그를 빠뜨리면, 머리색, 눈 색 등 세부 사항이 정확하지 않게 생성될 수 있으며, 특히 캐릭터 특징이 복잡할 경우 더욱 그렇습니다. 그러나 일반 사용자에게 모든 필요한 특징 태그를 완전히 추가하는 것은 쉽지 않습니다.

When using Stable Diffusion models to generate character images, due to the characteristics of the training data and methods, it is best to provide the character's name along with their feature tags. If only the character's name is provided without feature tags, details such as hair color and eye color generated by the model may be inaccurate, especially when the character's features are more complex. However, for ordinary users, it is not easy to supplement and complete all the necessary feature tags.

이 문제를 해결하기 위해, 우리는 AUTOMATIC1111 WebUI에서 사용할 수 있는 DTG(Danbooru Tag Generator) 플러그인을 강력히 추천합니다. DTG는 본질적으로 언어 모델(LLM)로, 입력된 캐릭터 이름을 바탕으로 프롬프트를 자동으로 확장하고, 캐릭터의 특징 태그 및 세부 설명을 보완합니다. DTG를 사용하면 SanaeXL과 같은 고품질 모델의 성능을 더 잘 발휘할 수 있습니다.

To solve this problem, we strongly recommend using DTG (Danbooru Tag Generator), which is a plugin that can be used on AUTOMATIC1111's WebUI. DTG is essentially a language model (LLM) that can automatically expand prompts based on the input character name, supplementing the character's feature tags and more detailed descriptions. Using DTG can better leverage the performance of high-quality models like SanaeXL.

DTG 링크: https://github.com/KohakuBlueleaf/z-a1111-sd-webui-dtg

DTG link: https://github.com/KohakuBlueleaf/z-a1111-sd-webui-dtg

프롬프트 작성 시 다음 형식을 사용하는 것을 권장합니다:

We recommend using the following format to construct prompts:

"1girl/1boy + 캐릭터 이름 + 시리즈 이름 + 동작/장면 시점 + 품질 단어"

이 형식으로 기본 프롬프트 정보를 제공한 후, 나머지 작업은 DTG에 맡기면 됩니다. DTG는 주어진 프롬프트를 바탕으로 관련 태그를 자동으로 생성하여 AI 모델이 더 정확하고 구체적인 이미지를 생성하도록 도와줍니다.

"1girl/1boy + character name + series name + action/scene perspective + quality words"After providing basic prompt information in this format, you can leave the rest of the work to DTG to complete automatically. DTG can generate additional relevant tags based on the given prompts, helping AI models generate more accurate and specific images.

NovelAI3 내부에서도 유사한 메커니즘을 사용했을 가능성이 높습니다. 사용자가 초기 프롬프트를 제공하면, NovelAI3는 태그 생성기(tag generator)를 연결하여 프롬프트를 자동으로 보완 및 확장해 더 나은 안내 효과를 구현할 것입니다.

We have reason to speculate that NovelAI3 internally may also use a similar mechanism. After the user provides the initial prompt, NovelAI3 may connect to a tag generator to automatically supplement and expand the prompt information, achieving better guidance effects.

“프롬프트 + DTG” 조합을 통해 사용자는 복잡한 태그를 수동으로 추가할 필요 없이, AI 생성 이미지의 내용과 스타일을 더 간결하고 효율적으로 제어할 수 있으며, Stable Diffusion 모델을 사용한 캐릭터 이미지 생성의 편의성과 정확성을 크게 향상시킵니다.

This "prompt + DTG" combination approach allows users to control the content and style of AI-generated images in a more concise and efficient manner, without the need to manually add a large number of complex tags, greatly improving the convenience and accuracy of using Stable Diffusion models for character image generation.

아티스트 및 캐릭터에 대하여:

학습 이미지 수가 매우 많기 때문에, 양쪽 태그 모두 효과적인 경우가 많으며, 특히 Danbooru에서 1,000장 이상의 이미지가 있는 아티스트 및 캐릭터는 훌륭한 결과를 얻을 수 있습니다. 단, 학습 데이터는 2024년 2월까지이므로, 최근 캐릭터에 대한 지원은 부족합니다. 아래는 아티스트와 캐릭터에 대한 권장 워일드카드 링크입니다:

Because the number of training images is very large, both models have a large number of effective tags, especially artists and characters with over 1,000 images on Danbooru, which can achieve good results. It should be noted that the training set is up to February 2024, so the model's support for recent characters is not ideal. Below are links to recommended wildcards for artists and characters:

모델의 CCIP 평가를 기반으로, 우리는 성능이 우수한 캐릭터 목록을 제공합니다.

이 목록은 평가 범위 내(3,711개 캐릭터)에서 뛰어난 성과를 보인 일부 캐릭터만 포함하며, 모든 캐릭터를 포함하지는 않습니다.

일부 덜 알려진 캐릭터의 경우, 직접 테스트해 보셔야 합니다.

우리는 엄격한 평가 기준을 고수하며, 단지 학습 데이터에 특정 캐릭터 관련 데이터를 추가했다고 해서 평가 없이 모델이 그 캐릭터를 지원한다고 주장하지 않습니다.

이러한 느슨한 기준을 채택하면 이 모델은 이론적으로 모든 캐릭터(>12,000개)를 지원한다고 주장할 수 있지만, 그것은 명백히 무의미합니다.

Based on our CCIP evaluation of the model, we have provided a list of excellently performing roles for you to choose from.

Please note that this list only includes outstanding performers from within our evaluation scope (3711 roles) and does not cover all roles.

For some less common roles, you may need to test their effectiveness yourself.

We adhere to strict evaluation standards and will not claim that the model supports a role simply because related data for that role was added to the training dataset without proper evaluation.

If we were to adopt such a loose standard, our model could theoretically claim to support all roles (>12000), but this would obviously be meaningless.

character/sanaeXL_v1_character_ccip0.8.xlsx · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)

아티스트 목록은 현재 대규모 평가가 불가능합니다.

그러나 직접 사용할 경우, 아래 두 목록을 권장합니다. 이 목록은 WebUI의 워일드카드 기능으로 바로 호출할 수 있습니다.

For the artist list, it is currently not possible to conduct large-scale evaluations.

However, for direct use, it is recommended to use these two lists, which can be directly utilized through the wildcard in the webui.

wildcards/starry_artists_v52_full.txt · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)

wildcards/starry_artists_v52_curated_128.txt · SanaeLab/SanaeXL-anime-v1.0 at main (huggingface.co)

참고: sanaeXL이 지원하는 태그는 위 링크에 나열된 것들만으로 제한되지 않습니다.

Note: The tags supported by sanaeXL are not limited to those mentioned in the links above.

태그에 대하여 / about tag

이 모델의 사용법은 KXL eps와 동일하며, 프롬프트 형식은 다음과 같습니다:

The usage of this model is the same as KXL eps. The prompt format is as follows:

<1girl/1boy/1other/...>,

, , ,

,

, , ,

평가 태그(Rating tags)

일반: safe

민감: sensitive

의심스러움: nsfw

명시적: nsfw, explicit

2005~2010: old

2011~2014: early

2015~2017: mid

2018~2020: recent

2021~2024: newest

해상도 및 샘플링 / Resolution and Sampling

1024×1024 해상도에서 WebUI에 내장된 고해상도 복원(Highres.fix) 기능을 사용하면 sanaeXL의 성능을 더욱 잘 발휘할 수 있으며, 복원 배율은 1.2배에서 1.5배 사이를 추천합니다.

Using the built-in high-resolution fix (Highres.fix) feature of webui at 1024×1024 resolution can better leverage the performance of sanaeXL. The recommended fix ratio is between 1.2 and 1.5 times.

샘플러에는 특별한 요구 사항이 없으며, 출력 결과가 만족스럽지 않다면 샘플링 스텝과 CFG 값을 적절히 높이세요.

Euler A를 예로 들면, 샘플링 스텝은 2030 사이에서 적절하며, 스텝 수가 많을수록 효과가 좋고, CFG는 712 사이를 권장합니다.

There are no special requirements for samplers. If the output effect is not satisfactory, you can appropriately increase the number of sampling steps and the value of CFG.

Taking Euler A as an example, the number of sampling steps can be between 20-30. A higher number of steps will yield better results. The recommended CFG is between 7-12.

CCIP 데이터

CCIP는 캐릭터 적합도를 효과적으로 평가하는 모델입니다. 캐릭터를 별도로 학습하지는 않았지만, 효과적인 학습 덕분에 starryXL과 같은 치명적인 망각 현상이 발생하지 않았으며, 실제로 현재 CCIP 평가에서 가장 뛰어난 성능을 보이는 모델이 되었습니다. 3,711개 캐릭터 평가 세트 중 68.77%의 캐릭터가 0.8 이상의 CCIP 점수를 받았으며, 중앙값은 0.94입니다. 대부분의 캐릭터는 프롬프트 조합만으로 직접 생성 가능합니다.

CCIP is a model that can effectively evaluate character fitting. Although characters were not trained separately, thanks to effective training, the model did not suffer from catastrophic forgetting like starryXL. In fact, it has become the best-performing model in CCIP evaluation at the time of writing. 68.77% of characters obtained a CCIP score above 0.8, with a median of 0.94. In this evaluation set composed of 3,711 characters, the vast majority of characters can be directly generated through prompt combinations.

(이 부분에 대한 구체적인 내용은 향후 트레이닝 노트에서 자세히 기술하겠습니다.)

(Specific details about this part will be elaborated in future training notes.)

노트 링크 / note link:곧 제공 예정

sanaeXL에 대해

SanaeLab:https://huggingface.co/SanaeLab

이 모델은 지속적으로 업데이트되며, 업데이트 주기는 대략 일주일에서 반달 정도입니다.

This model will be continuously updated, with an update cycle of approximately one week to half a month.

향후 업데이트 계획 예시:

● 2024년 2월 이후 등장한 캐릭터 추가

● 더 다양한 아티스트 스타일

● 손과 발의 품질 향상

Future update plans include:

● Adding characters released after February 2024

● More artist styles

● Improved rendering of hands and feet

감사의 말 / Acknowledgments:

KohakuBlueleaf가 훈련한 기본 모델과 deepGHS의 오픈 소스 데이터셋에 특별히 감사드립니다.

Special thanks to the base model trained by KohakuBlueleaf and the open-source dataset from deepGHS.

Kohaku XL eps rev3 : https://huggingface.co/KBlueLeaf/Kohaku-XL-Epsilon-rev3

Kohaku XL delta : https://huggingface.co/KBlueLeaf/Kohaku-XL-Delta

deepGHS : https://huggingface.co/deepghs

모델 공개 성명 | Model Release Statement

이 모델은 아래 웹사이트에서만 공식적으로 공개됩니다:

중요 공지:

  • 위 플랫폼 외 다른 모든 채널을 통해 공개된 관련 콘텐츠는 신뢰할 수 없습니다.

  • 무단 게시물은 SanaeLab과 관련이 없습니다.

  • 우리는 이러한 무단 게시물에 대해 책임지지 않으며, 그 콘텐츠의 진위 및 안전성을 보장할 수 없습니다.

This model is officially released only on the following websites:

Important Notice:

  • Any related content published on platforms other than those mentioned above is not trustworthy.

  • Unauthorized publications are not associated with SanaeLab.

  • We are not responsible for these unauthorized publications and cannot guarantee their authenticity or safety.

라이선스

이 모델은 Fair-AI-Public-License-1.0-SD 하에 공개됩니다

자세한 정보는 다음 웹사이트를 참조하세요:

Freedom of Development (freedevproject.org)

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.