BadApple_XL

세부 정보

파일 다운로드

모델 설명

기본 정보:

실험적인 Ft 모델로, Animagine 3.1 사전 학습 모델을 기반으로 하여 평면 스타일의 세부 사항과 최종 아트 효과를 향상시키기 위한 미세 조정입니다. 학습 데이터셋은 인터넷에서 수집한 약 10만 장의 이미지로, 인력에 의해 필터링, 미학 평가 및 예술 스타일 분류를 거쳐, 구성이 비교적 완전하고 인체 구조가 정확하며 화풍이 우수한 10,049장의 이미지가 최종 학습 데이터셋으로 선정되었습니다.

(영문 부분은 GPT에 의해 번역되었습니다)

Basic Information:

This is an experimental fine-tuned (Ft) model, trained on the pre-trained model Animagine 3.1. The goal of this fine-tuning is to enhance the artistic details of flat-style images. The training dataset, collected from the internet, consists of approximately 100,000 images, which were manually screened, evaluated for aesthetics, and categorized by art style. In the end, 10,049 images that featured relatively complete compositions, accurate human anatomy, and high-quality art styles were selected for the training set.

사전 학습:

Animagine 3.1은 데이터량이 풍부하고 개념이 완비되며 미학 분류가 정밀한 우수한 모델이지만, 동일한 평가 레벨 내에서도 예술 스타일에 따라 일관성이 부족할 수 있으며, 특히 평면(Flat)과 스케치(Scribble) 스타일은 종종 상반된 벡터로 간주되어 동일한 예술 레벨 내에서 서로 간섭을 일으키는 경향이 있습니다. 특히 머리카락, 피부 등의 세부 부분에서 두 스타일의 혼합 오류가 두드러집니다.

Pre-training:

Animagine 3.1 is an excellent model with a large dataset, well-defined concepts, and precise aesthetic classification. However, within the same aesthetic rating tier, there can be some inconsistency in art styles. For instance, Flat and Scribble styles often become opposing vectors, and their interference with each other can be particularly evident in details such as hair and skin.

Quality Modifier	Score Criterion
masterpiece	        > 95%
best quality	        > 85% & ≤ 95%
great quality	        > 75% & ≤ 85%
good quality	        > 50% & ≤ 75%
normal quality	        > 25% & ≤ 50%
low quality	        > 10% & ≤ 25%
worst quality	        ≤ 10%

또한 일반적으로 수집 가능한 우수한 학습 데이터셋의 수량은 항상 제한적이므로 학습 데이터셋의 동질화가 불가피하며, 이에 따라 재분류가 완료되지 않은 상태에서 직접 학습하면 과적합이 발생하기 쉽습니다. 따라서 우리는 사전 학습을 통해 A31이 포함하는 다양한 스타일을 먼저 ‘평균 수준’으로 조정하고자 했습니다. 실제로 약 3,000장의 다양한 애니메이션 원화를 사용하여 스타일을 평면 채색에 더 가깝게 조정한 후 추가 학습을 진행했습니다.

Due to the limited availability of high-quality training resources, there is always a tendency for training sets to converge. Direct training risks overfitting if reclassification is not completed. Therefore, we aimed to pre-train by “pulling back” the art styles in Animagine 3.1 to a more balanced starting point. Approximately 3,000 anime images were used to adjust the style closer to flat coloring before further training.

데이터 분류:

분류 기준(프롬프트): 이미지의 청결도 | 구성 품질 | 예술 스타일로, A31의 미학 분류 기준을 직접 따르지 않지만, A31의 프롬프트는 여전히 유효하며 호출 시 A31의 원본 화풍을 주로 나타냅니다.

Data Classification:

The classification criteria (prompt words) include cleanliness of the image, composition quality, and art style, instead of directly using Animagine 3.1’s aesthetic classification standards. However, Animagine 3.1’s prompts remain valid and will primarily display its original art style when called.

데이터 분류:

분류 기준(프롬프트): 이미지의 청결도 | 구성 품질 | 예술 스타일로, A31의 미학 분류 기준을 직접 따르지 않지만, A31의 프롬프트는 여전히 유효하며 호출 시 A31의 원본 화풍을 주로 나타냅니다.

이미지의 청결도:

  1. extremely_clean_colorstyle

  2. very_clean_colorstyle

  3. medium_clean_colorstyle

  4. slightly_scribble_colorstyle

  5. very_scribble_colorstyle

  6. extremely_scribble_colorstyle

문자 그대로의 의미입니다.

구성 품질:

  1. excellent composition

  2. good_composition

  3. common_composition

  4. bad_composition

이는 단순히 인력이 주관적으로 구성 품질을 분류한 시도로, 인물이 화면을 과도하게 차지하는 등 전체 구성이 열악한 이미지를 재분류하려는 목적으로 도입되었습니다. 그러나 이 규모의 학습에서는 실제로 효과가 거의 없었고, 향후 학습에서는 이 라벨링 방식을 개선하거나 폐기할 계획입니다.

예술 스타일:

샘플에 나타난 일부 아티스트 스타일을 참고하되, 이 아티스트 태그는 해당 아티스트의 작품 집합에만 국한되지 않고, 대표적인 예술 스타일의 집합을 의미합니다. 학습 데이터셋 분류 시 분류의 편의를 위해 일부 아티스트 이름을 사용하였으며, 이는 유사한 스타일을 가진 다른 아티스트나 미술 자원의 학습 데이터셋도 포함합니다.

기타 예술 카테고리는 Nai의 태그와 유사하며, 여기서는 샘플에 모두 나열하지 않습니다.

예시: 1girl, ganyu /(genshin impact/), very\_clean\_colorstyle, good\_composition, artist\_ShinyColors, \_\_\_\_

Cleanliness of the image:

  1. extremely_clean_colorstyle

  2. very_clean_colorstyle

  3. medium_clean_colorstyle

  4. slightly_scribble_colorstyle

  5. very_scribble_colorstyle

  6. extremely_scribble_colorstyle

These are self-explanatory terms.

Composition quality:

  1. excellent composition

  2. good composition

  3. common composition

  4. bad composition

This was a naive attempt to classify composition quality based solely on subjective human judgment. The initial goal was to reclassify images with poor composition, such as those with characters taking up too much of the frame. In practice, this method proved ineffective at this training scale and will be optimized or discarded in future training.

Art style:

As shown by some artist styles in the samples, it’s worth noting that the artist tags cover more than just the artist’s own body of work. These tags represent a broader collection of similar art styles. When categorizing the training set, some artist names were used for easier classification, but these tags also include works from other artists with similar styles or art resources.

Other art categories and tags are similar to those used in Nai and are not displayed in the sample here.

Example: 1girl, ganyu (genshin impact), very_clean_colorstyle, good_composition, artist_ShinyColors

모델의 인물은 Animagine 3.1에서 파생되었으며, A31에서 직접 생성된 인물은 이 모델에서도 그대로 생성 가능합니다. 반면, A31에서 학습 샘플과 학습 스텝이 부족하여 재현 효과가 떨어지는 소수 인물들은 이 모델에서 역시 우수한 생성 결과를 얻기 어렵습니다.

Characters in this model are inherited from Animagine 3.1, and any character directly generated from A31 can be generated here as well. Similarly, lesser-known characters with fewer training samples and steps in A31 will not have significantly improved generation effects in this model.

학습 파라미터:

세부 미세 조정 학습 파라미터는 다음과 같습니다:

Training Parameters:

The detailed fine-tuning training parameters are as follows:

Num Train Images: 10049

Batch Size: 6

Epoches: 20

Epoch: 20

Total Steps: 33496

Optimizer: adaFactor

Unet lr: 6e-6

Text lr: 4e-6

lr_scheduler: constant_with_warmup

Resolution: 1024x1024

Mixed Precision: BF16

한계점:

  1. 이 데모의 학습 데이터셋은 주로 애니메이션 CG 및 평면 채색 스타일에 초점을 맞추었으며, 두꺼운 채색, 유화 등 다른 예술 효과를 표현하는 능력은 제한적입니다. 학습 스텝이 제한적이며, A31의 장단점을 그대로 계승합니다.

  2. 사전 학습 및 미세 조정 학습 데이터셋은 wd-swinv2-tagger-v3를 사용하여 라벨링했으나, 인식 능력의 한계로 인해 많은 오라벨링이 발생했습니다. 이는 원본 모델의 정확한 개념을一定程度 오염시켰으며, 특히 수도꼭지는 자전거나 다른 교통수단으로 오인하거나, 네트, 전선 등 혼동되기 쉬운 개념을 잘못 분류하는 사례가 많습니다. 이로 인해 배경 생성 시 부정적 영향이 발생하며, 생성 이미지의 개념이나 세부 요소가 많을수록 세부 오류가 더 쉽게 나타납니다.

  3. 손을 그릴 수 없습니다.

Limitations:

  1. This demo’s training set primarily focuses on anime CG and flat coloring styles, with limited ability to handle thick painting, oil painting, or other artistic effects. The limited training steps inherit both the strengths and weaknesses of A31.

  2. The pre-training and fine-tuning datasets were labeled using wd-swinv2-tagger-v3, which has limited recognition capability, leading to many mislabeling issues. This has somewhat polluted the original base model's correct concepts. For example, a faucet is often misidentified as a bicycle or other transportation tools. Concepts like nets or wires are easily confused, causing some undesirable effects in background generation. Similarly, when images contain many concepts and details, errors in those details are more likely to occur.

  3. It cannot draw hands properly.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.