BadApple_XL

詳細

ファイルをダウンロード

モデル説明

基本情報:

実験的な微調整(Ft)モデルで、Animagine 3.1の事前学習モデルを基にトレーニングされ、フラットスタイルの詳細な芸術的表現を向上させることを目的としています。トレーニングデータはインターネットから収集した約10万枚の画像で、人手による選別、美的評価、芸術的分類を経て、構成が比較的整っており、人体構造が正確で、画風が優れた10,049枚の画像が最終的にトレーニングセットとして選ばれました。

(英語部分はGPTによって翻訳されました)

Basic Information:

This is an experimental fine-tuned (Ft) model, trained on the pre-trained model Animagine 3.1. The goal of this fine-tuning is to enhance the artistic details of flat-style images. The training dataset, collected from the internet, consists of approximately 100,000 images, which were manually screened, evaluated for aesthetics, and categorized by art style. In the end, 10,049 images that featured relatively complete compositions, accurate human anatomy, and high-quality art styles were selected for the training set.

事前学習:

Animagine 3.1は、データ量が豊富で、概念が整っており、美的分類が正確な優れたモデルですが、同一評価レベル内でも芸術スタイルにバラつきが生じる可能性があります。特にフラットスタイルとスケッチスタイルは、しばしば相反するベクトルとなり、同じ美的レベルに属しながら互いに干渉し合うことがあり、特に髪や肌の細部で顕著に表れます。

Pre-training:

Animagine 3.1 is an excellent model with a large dataset, well-defined concepts, and precise aesthetic classification. However, within the same aesthetic rating tier, there can be some inconsistency in art styles. For instance, Flat and Scribble styles often become opposing vectors, and their interference with each other can be particularly evident in details such as hair and skin.

Quality Modifier	Score Criterion
masterpiece	        > 95%
best quality	        > 85% & ≤ 95%
great quality	        > 75% & ≤ 85%
good quality	        > 50% & ≤ 75%
normal quality	        > 25% & ≤ 50%
low quality	        > 10% & ≤ 25%
worst quality	        ≤ 10%

また、一般に収集可能な高品質なトレーニングリソースの数は常に限られているため、トレーニングセットの同質化が避けられず、再分類が完了する前に過学習が発生しやすくなります。そのため、まず事前学習によってA31に含まれるスタイルを「平均レベル」に引き戻すことを目指しました。実際には約3,000枚の異なるアニメ原画を用いてトレーニングし、スタイルをまず一般的なフラット塗りの芸術スタイルに近づけました。

Due to the limited availability of high-quality training resources, there is always a tendency for training sets to converge. Direct training risks overfitting if reclassification is not completed. Therefore, we aimed to pre-train by “pulling back” the art styles in Animagine 3.1 to a more balanced starting point. Approximately 3,000 anime images were used to adjust the style closer to flat coloring before further training.

データ分類:

分類ルール(プロンプト): 画像の清潔度 | 構図品質 | 芸術スタイル。ただしA31の美的分類基準を直接採用せず、A31のプロンプトは依然として有効であり、呼び出した際にはA31のオリジナルな画風がより強く現れます。

Data Classification:

The classification criteria (prompt words) include cleanliness of the image, composition quality, and art style, instead of directly using Animagine 3.1’s aesthetic classification standards. However, Animagine 3.1’s prompts remain valid and will primarily display its original art style when called.

データ分類:

分類ルール(プロンプト): 画像の清潔度 | 構図品質 | 芸術スタイル。ただしA31の美的分類基準を直接採用せず、A31のプロンプトは依然として有効であり、呼び出した際にはA31のオリジナルな画風がより強く現れます。

画像の清潔度:

  1. extremely_clean_colorstyle
  2. very_clean_colorstyle
  3. medium_clean_colorstyle
  4. slightly_scribble_colorstyle
  5. very_scribble_colorstyle
  6. extremely_scribble_colorstyle

文字通りの意味。

構図品質:

  1. excellent composition
  2. good_composition
  3. common_composition
  4. bad_composition

これは単に人間の主観で構図の水準を分類した、単純な試みです。人物が画面の大部分を占めるなど、全体の構図が劣る画像を再分類することを目的としていましたが、実際のトレーニングではこのレベルではほぼ効果がなく、今後のトレーニングでこのラベリング方法は最適化または廃止される予定です。

芸術スタイル:

サンプルに示された一部のアーティストスタイルに注目してください。ただし、これらのアーティストタグはその個人の作品集だけに限定されず、代表的な一類の画風集合を指します。トレーニングセットの分類において、分類を容易にするために一部のアーティスト名が使用されていますが、これには類似した画風を持つ他のアーティストや美術リソースのトレーニングセットも含まれています。

その他の芸術カテゴリはNaiのタグと同様であり、サンプルではすべてを列挙していません。

例:1girl, ganyu (genshin impact), very_clean_colorstyle, good_composition, artist_ShinyColors

モデルの人物はAnimagine 3.1から継承されており、A31から直接生成可能な人物はこのモデルでもそのまま生成できます。同様に、A31でトレーニングサンプルやステップ数が少なく、再現性が劣るマイナーな人物は、このモデルでも十分な効果を得られません。

Characters in this model are inherited from Animagine 3.1, and any character directly generated from A31 can be generated here as well. Similarly, lesser-known characters with fewer training samples and steps in A31 will not have significantly improved generation effects in this model.

トレーニングパラメータ:

詳細な微調整トレーニングパラメータは以下の通りです:

Training Parameters:

The detailed fine-tuning training parameters are as follows:

Num Train Images: 10049
Batch Size: 6
Epoches: 20
Epoch: 20
Total Steps: 33496
Optimizer: adaFactor
Unet lr: 6e-6
Text lr: 4e-6
lr_scheduler: constant_with_warmup
Resolution: 1024x1024
Mixed Precision: BF16

制限事項:

  1. このデモのトレーニングセットは主にアニメCGおよびフラット塗りスタイルに焦点を当てており、厚塗りや油絵などの芸術的表現能力は限定的です。トレーニングステップが限られているため、A31の長所と短所をそのまま継承しています。

  2. 事前学習および微調整トレーニングセットのラベリングにはwd-swinv2-tagger-v3を使用しましたが、認識能力の制限により多くの誤ラベリングが発生しており、元のベースモデルの正しい概念を一定程度汚染しています。特に、水道栓が自転車や他の交通機関と誤認識されたり、ネットや電線などの類似概念が混同されたりするケースが多く、背景生成に悪影響を与えています。また、生成画像に多くの概念や細部が含まれる場合、細部の誤りが発生しやすくなります。

  3. 手を描くことができません。

Limitations:

  1. This demo’s training set primarily focuses on anime CG and flat coloring styles, with limited ability to handle thick painting, oil painting, or other artistic effects. The limited training steps inherit both the strengths and weaknesses of A31.

  2. The pre-training and fine-tuning datasets were labeled using wd-swinv2-tagger-v3, which has limited recognition capability, leading to many mislabeling issues. This has somewhat polluted the original base model's correct concepts. For example, a faucet is often misidentified as a bicycle or other transportation tools. Concepts like nets or wires are easily confused, causing some undesirable effects in background generation. Similarly, when images contain many concepts and details, errors in those details are more likely to occur.

  3. It cannot draw hands properly.

このモデルで生成された画像

画像が見つかりません。