T-ponynai3
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
https://discord.gg/CXKvxTSfkm こちらがDiscordのリンクです。中国語と英語の二つのチャンネルがあります。
451450868(英霊殿)
929721518(ブロックされたバックアップグループ)
(58) T-ponynai3 - v6.5 | Stable Diffusion Model - Checkpoint | Tensor.Art (tusiart.com)
これは国内のTusiArtオンライン生成プラットフォームで、無料で画像生成が可能です。
v6の使用テクニック:「anime」という単語はnai3のスタイルで訓練されています。欧米風のスタイルが現れた場合、「anime」という単語を使用することでnai3スタイルを安定させることができます。これは過学習を抑えるために私が試した方法です。
V6使用のヒント:「anime」という単語はnai3のスタイルで訓練されています。欧米風のスタイルが現れた場合、「anime」という単語を使用することでnai3スタイルを安定させることができます。これは過学習を抑えるために私が試した方法です。
このモデルにはすでにVAEが組み込まれています。追加のVAEは必要ありません。
The model already has included vae, there is no need to add additional vae
最適な画像生成戦略は、高解像度の直接出力ではなく、中程度の解像度でハイクオリティ修復を使用することです。
The best generate strategy is to use high-fix at a moderate resolution, rather than directly using high-resolution direct output
v5バージョンでは4つの新しいスタイルが追加されました。style_1からstyle_4を使用して画像の細部を微調整できます(理論的にはそうですが、実際の効果はやや不確実です)。
V5 version has added 4 new styles, which can be used to fine tune the details of the image through style_1 to style_4 (theoretically, this is the case, but the actual effect is more mystical or lower)
本モデルは、ponyv6をベースモデルとして訓練されたLoRAを完全にサポートします。ani3、sdxl1.0のLoRAも一定程度互換性があります。
This model perfectly supports lora trained with ponyv6 as the base model, and the Lora of ani3 and sdxl1.0 can also be adapted to some extent.
v4.1に基づく画像インペイントのテスト(以前のバージョンで見過ごされていた部分です)
Image inpaint testing based on v4.1 (this is a previously overlooked part)




ponyは神、互換性は最高。本モデルはani、ponyのLoRAをサポートしています。
必須のプリセットプロンプトはponydiffusionと同様です
positive:(score_9,score_8_up,score_7_up,score_6_up,score_5_up,score_4_up)
OR (score_9,score_8_up,score_7_up)
ネガティブに追加可能:
negative: (score_4,score_3,score_2,score_1),
また、一般的なnai系ネガティブワードも追加できます:
negative: worst quality, bad hands, bad feet
hope u like it ᕕ(◠ڼ◠)ᕗ base on nai3 and ponyv6
訓練に関する注意事項:v1は94枚、v2は119枚、v3は348枚、v3.5は474枚のNAI3で生成された画像を使用し、LoRAをベースモデルに統合して微調整しました。ponyが対応するすべてのアーティストタグをサポートしています。2つ以上のアーティストタグを使用すると背景が崩れる可能性があります。現在、原神のキャラクターを生成できることを確認しています。その他のキャラクターについては不明です。このモデルについては私自身のテストも限られていますが、NAI3のスタイルを忠実に再現できることに驚いています。ベースモデルはT-anime-xl、ponyv6、ani3の融合モデルであり、公開されていません。
訓練には私の3090 GPUを使用しました。v1からv3.5までの訓練時間はそれぞれ7時間、12時間、35時間、47時間でした。
Training Instructions:Merge Lora used 94 pictures for v1, 119 pics for v2, 348 pics for v3, 474 pics for v3.5,which generated by NAI3 to train into the basemodel for fine-tuning,Pony supports all artist tags which ponyv6 already have, but there is no any addition artist tag from nai3. Using more than two artist tags may cause background crashes,At present, it has been found that characters that can generate Genshin Impact.I don't know the others.I haven't tested much for this model.,Marvel at its reproduction of the painting style of NAI3.The base model is a fusion model of T-anime-xl and ponyv6 and animage3, which has not been released
The training graphics card I used was my own 3090 graphics card, which was used for 7 hours, 12 hours, and 35 hours and 47 hours from v1 to v3.5, respectively.
v1
一次有趣的尝试
An interesting attempt
v2
v1の訓練データを少し増やし、約30時間のパラメータ試行錯誤を経ましたが、トレーニングされたスタイルには依然として過剰適合の問題が残っていました。例えば、二重のへそや不規則な髪の毛です。
On the basis of v1, the training set was slightly increased and went through about 30 hours of trial and error, but the trained art style still had some overfitting, such as double navel eyes and messy hair
v3
v3の肢体表現はv2よりも優れています。footfocusの理解により、v3はより視覚的インパクトの強い足と、より困難な透視図法を生成できます。また、v3の髪の毛のAI感はv2より弱く、v2の訓練データが少なすぎたため髪の毛部分に過剰適合が発生していましたが、v3ではその問題も解消されました。v2で時折見られた二重のへそも見られなくなりました。全体的に、v2の3倍の訓練データ量とより大きなdimパラメータにより、スタイルの適合がより自然になり、長文プロンプトでの表現力もv2を大きく上回りました。
The limbs of v3 are better than those of v2. In terms of understanding footfocus, v3 can generate feet with greater visual impact and higher difficulty perspective. The AI feeling of v3's hair is also weaker than that of v2, because v2 has too little training set, so the hair part may be slightly overfitting, and the occasional double navel eyes that appear in v2 are also gone. Overall, three times the size of the v2 training set and a larger dim parameter make the art style fit more natural, and the performance is much stronger than v2 under long prompts.
v3.5
このバージョンでは、品質ワードの要件がそれほど厳格ではなく、ponyの美学スコア品質ワードを使用せずに画像を生成できます。テスト中にまれに無意味な色塊が生成されることがありますが、その場合は美学スコア品質ワードを1.5の一般的な品質ワード(例:score_1、score_2 → worst quality)に置き換えるだけで解決します。 このバージョンでは、さらに約150枚の訓練データを追加してスタイルをバランスよく充実させ、学習曲線の初期勾配を低減しました。その結果、このモデルは過剰適合しにくくなり、より多くのLoRAや独創的なプロンプトにも対応できるようになりました。全体として、このバージョンはv3よりも自由度が高く、男性キャラクターの描写もv3より大幅に向上しました。一部のプロンプトでの色調やスタイルは、v3ほど鮮やかで脂っぽくなくなりました。
In this version, the requirements for quality words are not so strict, you can completely not to use the quality words of pony's aesthetic score to plot the picture, and occasionally there will be a situation where the picture generates meaningless color blocks in the test, you only need to replace the quality words of the aesthetic score with 1.5 commonly used quality words, such as score_1, score_2 replace it with worst quality. In this version, I added about 150 more training sets to balance and enrich the art style, and reduced the initial slope of the learning curve, which makes this model less overfitted and can be adapted to more lora and whimsical prompts. Overall, this version is a freer version than the v3 version, and this version is much stronger than the v3 version, and the colors and style of painting under some hints are not so bright and greasy.
v4
このバージョンは798枚の画像を訓練データとして使用し、3090 GPUで90時間トレーニングしました。v3.5と比較して、特定のプロンプトにおける構図や身体部位の描写(例:指の重影や身体部位の重なり)がより正確になりました。プロンプトに関しては、中程度またはやや短いプロンプトを主な訓練目標としています。高品質な画像を生成するために長いプロンプトを書くのは誰もが嫌だからです。ponyの美学スコア品質ワードを削除した結果、v3.5と比較して画像品質が大幅に向上しました。生成される画像は立体的ではなく平面的になり、古典的なアニメスタイルに近づきました。ponyv6の微調整における画像枚数の効果のテストはほぼ終了しました。次はプロンプトのトレーニングタグに注目し、ponyの限られた単一訓練データにさらに調整可能なプロンプトを追加する(例:美学スコアの追加。現在のトレーニングロジックでは、主流の品質ワードでponyの美学スコア品質ワードを上書きしています)ことを試みます。また、シーンや足部の訓練データなど、適切な新しい訓練素材を継続的に追加します(v4の足部訓練データはやや不足しているように見えます)。
This version used 798 images as training materials and trained for 90 hours using a 3090 graphics card. This version has a more accurate composition and depiction of certain parts in certain prompts compared to v3.5, such as ghosting of fingers and overlapping of some body parts. In terms of prompts, my main training goal is to use medium and slightly shorter prompts, as nobody likes to write a long string of prompts to generate high-quality images, right? After removing the quality prompt of Pony's aesthetic score, the image quality has been significantly improved compared to v3.5, and the resulting quality tends to be more flat rather than three-dimensional, closer to the classic anime style. The testing of the fine-tuning effect of Ponyv6 on the number of images is nearing completion. The next step is to start with the training labels of prompts and try to add more adjustable prompts to Pony's limited number of single training materials (such as adding aesthetic scores, the current training logic still uses mainstream quality words to cover Pony's aesthetic score quality words), and continue to add suitable new training materials, such as scene training materials and more foot training materials (v4's foot training materials seem to be a bit scarce).
v4.1
短い期間で新しいバージョンをリリースしてしまい、ユーザーの皆様に謝罪します。これはコンピュータのメモリとネットワーク速度に大きな負担をかけます。O_O
Firstly, I would like to apologize to all users for the release of a new version in such a short period of time, which greatly tests the computer's memory and network speed. O_O
この新バージョンはv4の肢体調整版です。v4の肢体表現が制御しづらく、手の正確性が私の期待に達しなかったため、友人の木猫猫猫と協力してv4を修正・改善し、v4.1の肢体表現を私の期待通りに仕上げました。v4.1が同じパラメータでv4と比較してどの程度改善されたかを明確に示すために、いくつかのXYグラフを公開します。
This new version is based on the limb debugging version of v4. Due to the difficulty in controlling the limb effects of v4, the perfection rate of the hands did not meet my testing expectations in the past few days. So my friend 木猫猫猫 and I made some adjustments and improvements to v4, which ultimately made the limbs of v4.1 meet my expectations. I will release several xy graphs to clearly show the improvement of v4.1 compared to v4 under the same parameters.
v5
このバージョンでは訓練データを減らしました。v4の失敗を受けて、より少ないVRAM使用量で自分のアイデアを検証する別のプロジェクトを開始しました。T-ponynai3に適応する4つの異なるスタイルのLoRAを訓練し、元のモデルもCivitAIにアップロードしました。互換性をテストした後、この4つの異なるスタイルをT-ponynai3-v5に追加して訓練しました。驚くべきことに、v5のラインの質感は大幅に向上しました。おそらく非常に繊細な素材を訓練したためです。これらの4つのスタイルにはstyle_1からstyle_4というプロンプトを適用しましたが、残念ながら、これらのスタイルは互いに分離されず、あるいは効果が弱く、むしろ元のスタイルにうまく融合してしまいました。複数のスタイルをサポートするという目的は達成できませんでしたが、元のnai3スタイルの質感を大幅に向上させることができました。次バージョンではさらに進化させられるかもしれません。(私はゲームが大好きですが、訓練中はパソコンゲームができず、とても辛いです)
The training materials for this version have been reduced. Due to the failure of v4, I launched another project to test my idea from a small perspective of memory usage, which is to train four different art styles of Lora adapted to T-ponynai3. Of course, the original model was also uploaded to Civitai. After testing the adaptability, I started training these four different art styles as additives into T-ponynai3-v5. Surprisingly, The line texture of v5 has improved to a high level, probably because I trained a very delicate material. For the marking of these four art styles, I used the prompt words from style_1 to style_4. Unfortunately, for some reason, these four art styles were not separated or the effect was weak, but rather integrated well into the original art style. Although it did not achieve the goal of supporting multiple art styles, it effectively elevated the texture of the original Nai3 art style to a higher level. Perhaps the next version can try to take it even further. (I really enjoy playing games, and it's too difficult for me to play computer games every time I train.)
v5バージョンに関するいくつかの問題をまとめます。
LoRAの互換性、肢体、ぼやけた目に関する問題。LoRAの互換性は、今回の訓練で最終的な重みをやや高めに設定したため、一部のケースで過剰適合が発生していました。この最適化バージョンではその重みを下げており、肢体の崩壊率や一部のLoRAとの互換性は改善されています。v4.1で訓練されたスタイルのLoRAを使用した比較画像をいくつか公開して参考にしてください。目がぼやける問題はstyle_1の訓練に使用した元素材の目がぼやけていたことが原因と考えられます。style_3またはstyle_4を使用することで改善できます。
体積光の露出問題。テスト中はこの問題は発生しませんでしたが、原因はnoise offsetの訓練パラメータを使用したことで、モデルが光に関するプロンプトに敏感になり、同じ重みの光プロンプトでも結果が明るくなりすぎてしまうためです。重みを上げる際、括弧や数字を使わず、SDXLのプロンプトへの敏感さを利用して、同じプロンプトを繰り返し使用することをお勧めします。これにより極端な結果を避けることができます。また、このパラメータは少数のプロンプトで生成結果が黄色くなる問題を修正するために使用しました。参考のためにいくつかの比較画像を公開します。
モデルの複雑さが低下した問題。理論的にも実際のテストでも、v5は以前のバージョンよりもクリーンで多様なモデルであるはずです。特定のプロンプトの下でより正確な表現力を発揮できるはずです。同様に、いくつかの比較画像を公開しました。今回の訓練データはあまり複雑な素材を使用していません。複雑すぎる画像は過剰適合を引き起こし、細部の欠如につながると考えたからです。
目的:私は以前のバージョンと明確に差別化されたモデルを手に入れたいと考えており、ほぼ同じモデルをリリースしたくありません。今回の皆さんのフィードバックは非常に貴重な試行錯誤の機会です。私一人では試行錯誤のコストは高すぎます。次バージョンでは、異なるスタイルの素材量を増やし、各スタイルがうまく融合しつつも分離できるようにし、特定のプロンプトでスタイルを切り替えることを目指します。これは新しい訓練テクニックを必要とするかもしれません。皆さんのフィードバックに感謝します!
Summarize some issues regarding the v5 version.
1, Lora compatibility and issues with limbs and blurred eyes. Lora compatibility is that I used too much final weight for this training, and in some cases, overfitting may occur. This optimized version is the one that reduces the corresponding weight, and the limb collapse rate and compatibility with some Loras should be better. I have run several comparison charts of Loras trained with v4.1 for reference. The problem of blurred eyes should be the reason why I trained style_1. The eyes in the original material used are blurry, and can be improved by using style_3 or 4.
2. Exposure issues with volume light. I did not encounter this issue during testing, and the reason for it should be that I used the noise offset training parameter to increase the sensitivity of the model to light related prompt words, resulting in brighter results when the same weight of light prompt words were used. I suggest trying not to use parentheses and numbers to increase the weight. Due to the sensitivity of sdxl to prompt words, you can try repeating the same prompt words multiple times to avoid extreme results. At the same time, using this parameter is to fix the problem of generating yellow results under a small number of prompt words. I have run several comparison graphs for reference.
3. The problem of reduced model complexity. In theory and in practice. V5 should be a cleaner and more diverse model than the previous version, and with the help of some prompts, it should be able to achieve more accurate performance. Similarly, I ran several comparison charts for comparison. This training set did not use overly complex materials because I believe that overly complex images tend to overfit the results, which inevitably leads to a certain degree of detail loss.
Purpose: I hope to obtain a model that is significantly different from the previous version, rather than releasing a model that is almost identical to the previous version. This feedback from everyone is a great opportunity for trial and error, and I really don't have any trial and error costs on my own. In the next version, I will try to increase the amount of materials for different art styles, so that the art styles of different materials can be well integrated and separated. Using specific prompts to switch art styles may require some new training techniques. Thank you for your feedback!
v5.5
このバージョンは5.1の最適化版であり、目の細部、足の自然さ、プロンプトへの感度、四肢の重なりの合理化を改善しました。しかし、画面上下の明暗処理はまだ私の期待に達していません。私のテストでは、style_4を使用すると画像がより暗くなるため、暗い結果を生成するには(dark light,no light,very dark)などのタグを使用することをお勧めします。これは一時的な解決策かもしれません。直接訓練した結果がそれほど良くなかったため、追加の訓練をいくつか行いました。これにより、時間が無駄になってしまいました。さらに質問がある場合は、必ずコメント欄でお知らせください!
v6
このバージョンでは、より多くのシーン素材を追加し、以前のバージョンと比較して、より美しいシーン画像と優れた構図を生成できるようになりました。v5.5で存在していた指の問題を改善し、一部のプロンプトにおける足の趾の問題も最適化しました。
新バージョンのヒント:NAI3のスタイルをより良く活用するため、NAI3のスタイルをアニメというプロンプトに統合しました。NAI3のスタイルが不足していると感じた場合は、「anime」というプロンプトを追加してください。
モデルに関する任何の質問がある場合は、必ずコメントまたはプライベートメッセージでお知らせください!
v6.5
v6.5は、v6.1の過剰適合の問題を軽減することを目的としています。皆様からのフィードバックを受けて、モデルの欠点を明確に把握することができました。モデルのテストとサポートに感謝します!このバージョンでは、一部の無効なプロンプトの問題を修正し、手や四肢のねじれを改善しました。また、ノイズや被写界深度の問題も一部改善しました。全体的に、あらゆる面でアップグレードされていますが、環境効果は若干減少しています。















