ArtiWaifu Diffusion

弊社は、審美的に魅力的で忠実に復元されたアニメスタイルのイラストを生成することを目的とした ArtiWaifu Diffusion モデルをリリースしました。

AWA Diffusion は、Stable Diffusion XL モデルを基にした改良版で、9,000以上の芸術的スタイルと6,000以上のアニメキャラクター（バージョン2.0）を習得しており、トリガー単語を通じて画像を生成します。

アニメ専用の画像生成モデルとして、AWA Diffusion は高品質なアニメ画像の生成に優れており、特に認識しやすいスタイルやキャラクターを保ちながら一貫して高品質な審美的表現を生成します。

お知らせ

2024/08/31: 📢 お知らせ：各バージョンのトリガー単語リストは、モデルページの右側にある 「このバージョンについて」 パネルに移動しました。
2024/08/30: ArtiWaifu Diffusion 2.0 バージョンが、CivitAI、HuggingFace、LiblibAI（ShakkerAI）、およびTensorArtでリリースされました。

モデル詳細

AWA Diffusion モデルは、Stable Diffusion XL をファインチューニングしたもので、250万枚（バージョン2.0）の高品質なアニメ画像を含む選択されたデータセットを使用しています。このデータセットは、人気のあるものからマニアックなまで幅広いアニメのコンセプトをカバーしています。AWA Diffusion は、最新のトレーニング手法を採用しており、ユーザーは高品質かつ審美的な画像を維持しながら、特定のキャラクターやスタイルの画像を簡単に生成できます。

使用方法ガイド

このガイドは、（i）モデルの推奨使用方法とプロンプト作成戦略を紹介し、生成に関する提案を提供すること、および（ii）モデル使用の参考文書として、トリガー単語、品質タグ、評価タグ、スタイルタグ、キャラクタータグの書き方パターンと戦略を詳細に説明することを目的としています。

基本使用法

CFGスケール: 5–11。推奨は7.5です。
解像度: 面積（幅 × 高さ）が約1024×1024。256×256未満は避けて、幅と高さともに32の倍数となる解像度を使用してください。
サンプリング手法: Euler A（20ステップ以上）または DPM++ 2M Karras（約35ステップ）

AWA は特殊なトレーニング手法を採用しているため、最適な推論ステップ数は通常の値よりも高めです。推論ステップを増やすほど、生成される画像の品質はさらに向上します…

❓ 質問: なぜ標準的なSDXL解像度を使用しないのですか？

💡 回答: トレーニングで使用されるバケットアルゴリズムは、固定されたバケットセットに従っていません。これは位置エンコーディングに準拠していないため、実際の使用では悪影響は観察されていません。

プロンプト作成戦略

すべてのテキストから画像へのディフュージョンモデルはプロンプトに対して非常に敏感であり、AWA Diffusion も例外ではありません。プロンプトのスペルミスや、スペースをアンダースコアで置き換えるだけでも生成結果に影響を与えます。AWA Diffusion では、プロンプトをカンマ＋スペース（, ） で区切ったタグ形式で記述することを推奨しています。モデルは自然言語による記述や、タグと自然言語の混在もサポートしますが、タグ単位のフォーマットの方がより安定かつ使いやすいです。

特定のACGコンセプト（キャラクター、スタイル、シーンなど）を記述する際には、Danbooruタグからタグを選択し、Danbooruタグ内のアンダースコアをスペースに置き換えることで、モデルがご要望を正確に理解できるようにしてください。たとえば、bishop_(chess) は bishop (chess) と記述します。また、カッコでプロンプトの重みを設定するAUTOMATIC1111 WebUIなどの推論ツールでは、タグ内のすべてのカッコをエスケープする必要があります。つまり、bishop \(chess\) のように記述します。

タグの順序

AWA Diffusion を含むほとんどのディフュージョンモデルは、論理的に順序付けられたタグをよりよく理解します。タグの順序は必須ではありませんが、モデルがご要望をより正確に理解する手助けになります。一般的に、タグが前にあるほど、生成への影響が大きくなります。

以下はタグの順序の例です。例では、スタイルと被写体が画像にとって最も重要であるため、アーティストスタイルタグとキャラクタータグを先頭に配置し、その後、重要度の順に他のタグを追加しています。最後に、審美性を強調するために、審美タグと品質タグを末尾に配置しています：

アートスタイル（by xxx）→ キャラクター（1 frieren (sousou no frieren)）→ 種族（elf）→ 构図（cowboy shot）→ 描画スタイル（impasto）→ テーマ（fantasy theme）→ 主な環境（in the forest, at day）→ 背景（gradient background）→ 動作（sitting on ground）→ 表情（expressionless）→ 主要な特徴（white hair）→ その他の特徴（twintails, green eyes, parted lip）→ 衣装（wearing a white dress）→ 衣装アクセサリー（frills）→ その他のアイテム（holding a magic wand）→ 二次的な環境（grass, sunshine）→ 审美性（beautiful color, detailed）→ 品質（best quality）→ 付加的な説明（birds, cloud, butterfly）

タグの順序は固定されていません。プロンプトの記述に柔軟性を持たせることで、より良い結果を得られます。たとえば、あるコンセプト（スタイルなど）の影響が強すぎて画像の審美性を損なう場合は、そのタグを後方に移動させ、その影響を弱めることができます。

ネガティブプロンプト

AWA Diffusion ではネガティブプロンプトは必要ありません。ネガティブプロンプトを使用する場合、必ずしも多くを記述すれば良いわけではありません。できるだけ簡潔で、モデルが明確に認識できるように記述してください。ネガティブワードが多すぎると、生成結果が悪化することがあります。以下はネガティブプロンプトの推奨使用シーンです：

ウォーターマーク: signature, logo, artist name;
品質: worst quality, lowres, ugly, abstract;
スタイル: real life, 3d, celluloid, sketch, draft;
人間の解剖学的特徴: deformed hand, fused fingers, extra limbs, extra arms, missing arm, extra legs, missing leg, extra digits, fewer digits.

トリガー単語

生成したいコンセプト（キャラクター名、芸術スタイル、シーン、動作、品質など）をモデルに伝えるために、プロンプトにトリガー単語を追加してください。

注意：トリガー単語の完全なリストは、**各バージョンの「モデル詳細」**を参照してください。

トリガー単語のヒント

スペルミス: モデルはトリガー単語の綴りに非常に敏感です。1文字の違いでも、トリガーが効かなかったり、予期せぬ結果を生むことがあります。
カッコのエスケープ: AUTOMATIC1111 WebUIなどの、カッコでプロンプトの重みを設定する推論ツールを使用する際は、トリガー単語内のカッコをエスケープしてください。例：1lucy(cyberpunk) → 1lucy \(cyberpunk\)。
トリガー効果のプレビュー: Danbooruでタグを検索することで、タグの意味と使用方法を事前に確認できます。

スタイルタグ

スタイルタグは、ペイントスタイルタグと芸術スタイルタグの2種類に分けられます。ペイントスタイルタグは、油絵、水彩、フラットカラー、インパストなど、画像で使用された描画技法や媒体を表します。芸術スタイルタグは、画像の背後にあるアーティストの芸術的スタイルを表します。

AWA Diffusion は以下のペイントスタイルタグをサポートしています：

Danbooruタグで利用可能なペイントスタイルタグ：oil painting, watercolor, flat color など;
AID XL 0.8 がサポートするすべてのペイントスタイルタグ：flat-pasto など;
Neta Art XL 1.0 がサポートするすべてのスタイルタグ：gufeng など;
その他のタグ：by trickortreat など;

AWA Diffusion は以下の芸術スタイルタグをサポートしています：

Danbooruタグで利用可能な芸術スタイルタグ：byyoneyama mai, bywlop など;
AID XL 0.8 がサポートするすべての芸術スタイルタグ：byantifreeze3, by7thknights など;

タグリポジトリ内でのタグ数が多ければ多いほど、その芸術スタイルはより徹底的に学習されており、生成時の忠実度も高くなります。通常、タグ数が50以上の芸術スタイルタグでより良い生成結果が得られます。

スタイルタグのヒント

強度調整: プロンプト内のスタイルタグの順序や重みを変えることで、スタイルの強度を調整できます。スタイルタグを前に置くと影響が強くなり、後ろに置くと影響が弱まります。

❓ 質問: なぜ芸術スタイルタグには by の接頭辞を含めるのですか？

💡 回答: モデルに特定の芸術スタイルを生成するよう明確に指示するため、芸術スタイルタグには by の接頭辞を含めることをお勧めします。これにより、byxxx と xxx を明確に区別できます。特に dino のように、単に「恐竜」を意味する可能性のある語の場合、bydino とすれば芸術家の識別子として機能します。同様に、キャラクターをトリガーする際には、キャラクタートリガー語の前に 1 を追加してください。

キャラクタータグ

キャラクタータグは、生成される画像のキャラクターIPを表します。キャラクタータグを使用することで、モデルはそのキャラクターの外見的特徴を生成するよう導かれます。

キャラクタータグも、キャラクタータグリストから取得する必要があります。特定のキャラクターを生成するには、まずタグリポジトリ内で対応するトリガー単語を見つけて、トリガー単語内のすべてのアンダースコア _ をスペースに置き換え、キャラクター名の前に 1 を付けてください。たとえば、1ayanami rei はアニメ『EVA』の綾波レイを生成するトリガーであり、Danbooruタグ ayanami_rei に対応します。1asuna(sao) は『ソードアート・オンライン』のアスナを生成するトリガーであり、Danbooruタグ asuna_(sao) に対応します。

タグリポジトリ内でのタグ数が多ければ多いほど、そのキャラクターはより徹底的に学習されており、生成時の忠実度も高くなります。通常、タグ数が100以上のキャラクタータグでより良い生成結果が得られます。

キャラクタータグのヒント

キャラクターの衣装: より柔軟なキャラクター衣装を実現するため、キャラクタータグは意図的にキャラクターの公式衣装を描画するようモデルを導きません。特定の公式衣装でキャラクターを生成するには、トリガー語に加えて、プロンプト内に衣装の詳細を記述する必要があります。例：_1 lucy (cyberpunk), wearing a white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent_。
シリーズの注釈: 一部のキャラクタータグには、キャラクター名の後に追加の括弧注釈が含まれています。括弧とその中の注釈は省略できません。例：1 lucy (cyberpunk) は 1 lucy と書くことはできません。それ以外の追加注釈は不要です。たとえば、キャラクタータグの後に所属シリーズタグを追加する必要はありません。
既知の問題1: 特定のキャラクターを生成する際、奇妙な特徴の変形が発生することがあります。たとえば、1 asui tsuyu は『My Hero Academia』の潮田渚をトリガーしますが、目と目の間に黒い線が追加されることがあります。これはモデルが大きな丸い目を眼鏡と誤認するためであり、この問題を回避するには、ネガティブプロンプトに glasses を含める必要があります。
既知の問題2: 人気の低いキャラクターを生成する場合、AWA Diffusion はデータや学習不足により、特徴の完全な復元ができなくなることがあります。このような場合、キャラクター名だけでなく、キャラクターの出自、種族、髪の色、衣装などをプロンプトに詳細に記述することをお勧めします。
既知の問題3: 一部のキャラクタータグはスタイル情報も含んでおり、重複して過剰な影響を与えることがあります。その場合はキャラクタータグの重みを下げて問題を緩和してください。例：frieren → (frieren:0.8)。

キャラクタータグのトリガー例

1 lucy (cyberpunk) ✅ 正しいキャラクタータグ
1 lucy ❌ 括弧注釈が欠けている
1 lucy (cyber) ❌ 括弧注釈が不正確
lucy (cyberpunk) ❌ 接頭辞 1 が欠けている
1 lucy (cyberpunk ❌ 括弧が閉じられていない
1 lucky (cyberpunk) ❌ スペルミス
1 lucy (cyberpunk: edgerunners) ❌ 括弧注釈が規定のキャラクタータグの形式に従っていない

❓ 質問: 一部のキャラクタータグには lucy (cyberpunk) のように括弧注釈が含まれている一方、frieren のように含まれていないのはなぜですか？

💡 回答: 『ソードアート・オンライン』と『Blue Archive』のように、異なる作品に同じ名前のキャラクターが存在する場合があります。このような同じ名前のキャラクターを区別するため、作品名を参照してキャラクター名に注釈を加えます（名前が長すぎれば省略します）。一方、frieren のように、現時点で重複がない独自の名前を持つキャラクターには、特別な注釈は必要ありません。

品質タグと審美タグ

AWA Diffusionでは、ポジティブプロンプトに品質記述を含めることが非常に重要です。品質記述は品質タグと審美タグに関連しています。

品質タグは、生成された画像の審美的品質を直接記述し、詳細さ、テクスチャ、人間の解剖学的構造、照明、色などに影響を与えます。品質タグを追加することで、モデルはより高品質な画像を生成しやすくなります。品質タグは、以下のように最高から最低までランク付けされています：

素晴らしい品質 → 最高品質 → 高品質 → 普通の品質 → 低品質 → 最悪の品質

審美タグは、生成された画像の審美的特徴を記述し、モデルが芸術的に魅力的な画像を生成するのを支援します。パースペクティブ、照明と影などの一般的な審美用語に加え、AWA Diffusionは美しい色、詳細、審美的などの審美トリガー語に効果的に反応するよう特別に学習されています。これらはそれぞれ、魅力的な色、詳細さ、全体的な美しさを表現します。

品質を記述する推奨される一般的な方法は： <あなたのプロンプト>、美しい色、詳細、素晴らしい品質

品質タグと審美タグのヒント

タグの数：品質タグは1つあれば十分です。複数の審美タグを追加できます。
タグの位置：品質タグと審美タグの位置は固定されていませんが、通常はプロンプトの最後に配置されます。
相対的な品質：品質には絶対的な階層はありません。暗黙の品質は一般的な審美基準と一致しており、ユーザーによって品質の認識は異なります。

レーティングタグ

レーティングタグは、生成された画像のコンテンツにおける露骨さのレベルを記述します。レーティングタグは、以下のように最高から最低までランク付けされています：

レーティング：一般（またはセーフ） → レーティング：示唆的 → レーティング：疑わしい → レーティング：露骨（またはNSFW）

プロンプト語の例

例1

by yoneyama mai, 1 frieren, 1girl, solo, fantasy theme, smile, holding a magic wand, beautiful color, amazing quality

by yoneyama mai は、山本まいの芸術的スタイルをトリガーし、効果を高めるために先頭に配置されます。
1 frieren は、アニメ「フリーレンの葬送」のキャラクター「フリーレン」をトリガーします。
beautiful color は、生成された画像の美しい色を記述します。
amazing quality は、生成された画像の驚異的な品質を記述します。

by nixeu, 1 lucy (cyberpunk), 1girl, solo, cowboy shot, gradient background, white cropped jacket, underneath bodysuit, shorts, thighhighs, hip vent, detailed, best quality

例2：スタイルの混合

複数の異なるスタイルタグを重ねることで、複数のスタイルの特徴を持つ画像を生成できます。

A 簡単な混合

by ningen mame, by ciloranko, by sho (sho lwlw), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

B 重み付き混合

AUTOMATIC1111 WebUIのプロンプト重み付け構文（括弧による重み付け）を使用して、異なるスタイルタグに重みを付けて、生成画像のスタイルをより正確に制御します。

(by ningen mame:0.8), (by ciloranko:1.1), (by sho (sho lwlw):1.2), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

C 高度な混合

AUTOMATIC1111 WebUIのプロンプト重み付け構文（括弧による重み付け）を使用し、| 記号で直接2つの単語を混合できます。

(by trickortreat|by shiroski|by wlop|by baihuahua|by as109), 1girl, 1 hatsune miku, sitting, arm support, smile, detailed, amazing quality

例3：複数キャラクターのシーン

プロンプトに複数のキャラクタータグを追加すると、同じフレーム内に複数のキャラクターが描かれた画像を生成できます。他の類似モデルと比較して、AWAは複数キャラクターのシーンでより優れた性能を発揮しますが、依然として不安定です。

A 混合性別シーン

1girl and 1boy, 1 ganyu girl, 1 gojou satoru boy, beautiful color, amazing quality

B 同性別シーン

2girls, 1 ganyu girl, 1 yoimiya girl, beautiful color, amazing quality

今後の取り組み

AWA Diffusionは、高次な審美性と包括的な知識を組み合わせることを目標としています。従来のAIが持つ「ベタベタした」感覚を持つべきではなく、知識が欠如した花瓶にもならないはずです。我々はさらに高度な学習手法と戦略を継続して探求し、モデルの品質を一貫して向上させます。

私たちを支援してください

AWA Diffusionの学習には多額の費用が掛かっています。私たちの作業に感銘を受けた場合は、Ko-fi を通じて支援を検討してください。これにより、研究開発を後押しできます。ご賛同とご支援、ありがとうございます！

モデルタイプ	チェックポイント
ベースモデル	SDXL 1.0
公開日	5/5/2024
トレーニングワード	SEE MODEL INTRODUCTION

ArtiWaifu Diffusion

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

ArtiWaifu Diffusion

お知らせ

モデル詳細

使用方法ガイド

基本使用法

プロンプト作成戦略

トリガー単語

プロンプト語の例

今後の取り組み

私たちを支援してください

このモデルで生成された画像