LEOSAM's HelloWorld XL
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
🖥️GPT4V-Image-Captioner というオープンソースのツールをぜひお試しください。このツールは私と友人が共同で開発したもので、ワンクリックインストールが可能であり、画像の事前圧縮、タグ付け、タグ統計機能など、複数の機能を内蔵しています。最近、このツールのwebuiプラグイン版もリリースしましたので、ぜひご活用ください!
🌍QQグループ「トゥクン・AIGC夢工北廠」(グループ番号:780132897)および「トゥクン・AIGC夢工南廠」(グループ番号:835297318)へご参加ください(入群必須回答:トゥクン)。Telegramグループ「トゥクンのSDXL百老汇」:https://t.me/+KkflmfLTAdwzMzI1
📖HelloWorld 7.0 リリースノート - 2024年6月13日
一文で要約: HelloWorld 7.0は、シリーズ全体で最もパフォーマンスの高い体躯表現を実現したイテレーティブ最適化バージョンであり、概念のカバー範囲とディテールの豊かさがさらに強化されています。
更新内容:
ネガティブトレーニング画像の追加、ポーズ学習の強化、CLIPモデルの最適化により、以前のバージョンと比較して四肢や手の造型精度が向上しました。推奨されるネガティブプロンプトは以下の通りです:「bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality」。
公式SPOモデルから微調整済みLoRAを抽出し、HelloWorld 7.0に統合しました。SPOはDPO手法の進化形です。SPOベースモデルはDPO XLベースモデルや元のSDXLベースモデルよりも優れた性能を発揮します。SPO LoRAにより、画像のディテールとコントラストが強化され、美しさが向上します。SPO技術チームに感謝いたします。
トレーニングデータセットの概念のカバー範囲をさらに拡大しましたが、データセットは最適化・簡素化されています(大規模トレーニングは費用が高額で、最近H800のリースが困難かつ費用がかかりすぎるため、ローカルトレーニング時間の確保が厳しい状況です)。現在の総トレーニングデータセットは20,821枚。解像度分布は以下の通りであり、推奨される解像度は画像数の多いものを利用することをおすすめします:
(832, 1248) - Count: 7128 (896, 1152) - Count: 6250 (1248, 832) - Count: 2402 (1024, 1024) - Count: 1639 (1360, 768) - Count: 928 (1152, 896) - Count: 870 (768, 1360) - Count: 432 (960, 1088) - Count: 506 (992, 1056) - Count: 162 (1088, 960) - Count: 140 (704, 1472) - Count: 120 (1056, 992) - Count: 122 (1472, 704) - Count: 115 (1632, 640) - Count: 75 (640, 1632) - Count: 12GPT4Oを用いて全データセットの再ラベル付けを実施しました。今回は構造化ラベル付け手法を採用し、以下の構造で記述しました:「一文要約 + 複数の画像要素タグ + XXXのインスパイア + 美的品質評価語」。美的品質評価語は5段階に分類されています:worst quality, low quality, average quality, best quality, masterpiece。典型的なラベル例は以下の通りです:
サルバドール・ダリの超現実主義的芸術作品をインスパイアした、赤と_beigeのリボンで包まれた人間の手を描いた概念芸術作品。単純な淡色背景に浮かび、リアルスタイル、ミニマリストカラー、滑らかなテクスチャ、長く歪んだサルベーション、:::::::異様な美しさ、::::::::
HelloWorld 7.0における「インスパイア」を指す「高頻度タグワードリスト」および「高頻度アートスタイルリスト」は、商用ライセンスユーザーにのみ提供されます。過去にHelloWorld XLシリーズモデルのライセンスを購入されたパートナー様は、不足がある場合、無料で配布いたしますので、お気軽にお問い合わせください。
プレイヤーの方々は、HelloWorld 6.0の高頻度タグワードリストをご参照ください。また、本稿にはHelloWorld 7.0の高品質サンプル画像150枚以上をギャラリーに掲載していますので、皆様の出力の参考にしてください。モデル作成は至難の業です。プレイヤーの皆さまの理解と寛容に心より感謝申し上げます!
**📖**HelloWorld 6.0 リリースノート - 2024年4月20日
LEOSAM HelloWorld 6.0 Top 250 高頻度タグワードリスト
ご耐心をおかけして誠にありがとうございました。最近、求職活動のため、HelloWorldの更新が遅れておりました。6.0版の主な更新点は以下の通りです:
HelloWorld 6.0は5.0版を基盤としたイテレーティブ改善バージョンです。私のテストでは、リアルさの向上は5.0版と比べて顕著とは言えませんが、6.0版の主な利点はトレーニングデータセットの概念のカバー範囲が広がっている点です。フィードバックから、超現実主義、ボーデュア、グループ写真、マスク、折り紙、3Dレンダリング、車、ドラゴン、マタニティフォトなどのテーマに改善が見られました。一部の例は図に示されています。
HelloWorld 6.0は意図的にトレーニングデータセットに低品質画像を含め、ネガティブプロンプトへの反応力を高めています。ネガティブプロンプトでは以下の語句を使用を推奨します:「low quality, jpeg artifacts, blurry, poorly drawn, ugly, worst quality」。
HelloWorld 6.0の主要なトレーニングデータセットはGPT4vによるタグ付けを採用しています。GPT4vがタグ付けが難しい画像については、blip2-opt-6.7bを基にしたcogVQAを使用しています。これらのマルチモーダルモデルのタグ付け言語スタイルは、従来のWD1.4タッガーよりも著しく異なります。トレーニングデータセットにおいて異なるコンセプトをより正確にトリガーするため、HelloWorld 6.0トレーニングデータセットの上位250語の高頻度タグワードをまとめました。これらはこちらの資料でご確認ください。
最後に、SD3が間もなくリリースされますが、HelloWorld XL 7.0のアップデートを続け、7.0版でさらに大きな進化を達成できるよう努めます!
**📖**2024.2.22 「HW5.0_Euler_a_Lightning」のリリース
このモデルはHelloWorld SDXLベースモデルの高速化版であり、SDXL-Lightning技術を統合しています。Eular aサンプラーとCFG = 1を搭載しており、6~8ステップで画像生成が可能で、オリジナルSDXLバージョンの3倍以上の高速化を実現。さらに、比較した結果、LCMやTurbo版よりも優れた画像品質を実現しています。
このモデルでの画像生成に推奨されるパラメータは以下の通りです:
サンプラー:Eular a(重要!このモデルはEular aに特化して調整されています。他のサンプラーでは出力品質に劣る可能性があります)
CFGスケール:1
サンプリングステップ数:8ステップ(6~8ステップまで可)
Hiresアルゴリズム:ESRGAN 4x / 8x_NMKD-Faces_160000_G
Hiresアップスケーリング係数:1.5x
Hiresステップ数:8ステップ
Hiresノイズ除去強度:0.3
**📖**2024.2.11 「HelloWorld 5.0 GPT4V」のリリース
HelloWorld 5.0はHelloWorldシリーズ史上最も大幅なアップデート版であり、GPT-4vによるタグ付けが施されており、SF、動物、建築、イラストなど多くの分野で大幅な微調整が行われました。
比較テストにより、このバージョンでの改善点は以下の通りです:
キャラクターのポージングや構図がより多様でダイナミックになり、視覚的にインパクトのある画像が生成可能に;
映画データセットのトレーニングが大幅に強化されました。バージョン2.0~4.0では映画テクスチャが弱く、多くのファンが1.0版の「leogirl」スタイルを懐かしがっていました。したがって、このアップデートでは映画テクスチャの強化を図りながら、他の写真的質は損なわないように工夫しています。film grain textureやanalog photography aestheticといった表現で映画テクスチャを有効化可能です。
SF、スリラー、動物などのテーマにおける表現力が向上。メカやその他の主題にさらにデザイン性が加わり、雪豹、レッドパンダ、巨猿、トラ、パラス猫、およびペットの猫や犬がよりリアルに再現されます。
GPTタグ付けにより、プロンプトへの従順性および概念の正確性がさらに向上しました。
一方、このバージョンの課題点も存在します:
これは大幅な微調整によるアップデートのため、四肢などのエラー率が若干上昇する可能性があります。これは、快適圏から新しい最適化領域へ移行する際の正常な現象です。以前のバージョンは四肢の改善のために広範なテストを実施していましたが、この新バージョンは時間的制約によりその改善が限られていました。それでも、このバージョンの四肢の正確性は1.0版より高いものであり、今後のアップデートで継続的に改善を図ります。
増強された映画テクスチャのため、GPTタグ付けが可能な限り正確でも、画像に避けがたい和らかなトーンが入る場合があります。ただし、studio lightやsharp focusなどのプロンプトを使用することで、高精細なスタジオ品質の画像を生成でき、適切なプロンプトの使用により、皮膚色の質感や視覚的な魅力が以前のバージョンを上回る結果が得られます。
フルボディキャラクター画像をさらに多く導入することで、フルボディ効果を強化しました。そのため、特定の構図指示がない場合、以前よりも広いシーンを生成する可能性があります。現在の1024解像度のフルボディ画像の顔のディテールは、半身やクローズアップと比べるとややぼやけている場合があります。これに対して、adetailerと0.3の強度で1.5xのHires.fixを併用する、または「構図指定」など画像生成を回避するプロンプトを使用することで改善可能です。
数少ない高品質なイラストデータセットを一部追加しました。そのため、アニメスタイルに関するプロンプトがアニメ画像を生成する可能性があります。気になる場合はプロンプトを調整してください。
これらが今回の主なアップデート内容です。SDXLベースモデルのトレーニングは難しく、データセットが1万枚近くに達する際、各モデルのタグ付け・トレーニング費用は300ドルを超えます。皆様にモデルを活用していただき、ごフィードバックをいただければ大変嬉しく思います!本モデルに満足頂けた場合は、ぜひご協力のほどよろしくお願いいたします。
**📖**2024.1.31 「HelloWorld 4.0」のリリース
HelloWorld4.0は、blip+clip搭載からGPT4V搭載への段階的な移行版です。当初、純粋なGPT4Vタグ付けモデルを訓練した後、HelloWorld3.2版の大部分とJuggernaut XLの0.05比率をマージ(肌色の補正に使用)。新バージョンは、3.2版と比較してプロンプト準拠性と概念カバー範囲に改善が見られます。
GPT4Vタグ付けのトレーニングデータセットは、HelloWorld3シリーズの4,000枚から8,000枚に倍増。ポートレート以外にも、動物、建築、自然、料理、イラストなど多岐にわたる分野をカバーしています。ただし、純粋なGPT4V版はオーバーフィット問題に直面しており、これはトレーニングデータ数の増加が原因の可能性が高いです。次段階のイテレーティブ最適化の一つとして、ポートレートの十分なトレーニングを確保しつつ、非ポートレート概念を最大限に含める方法を見つける必要があります。現在のところ、新旧バージョンを融合したフォースによるファインチューニングを実施しており、概念セットの拡張やGPT4Vタグ付けの利点は現時点では顕著ではありません。これらは今後の5番目・6番目の世代で徐々に明確となっていくでしょう。
**📖**2024.1.5 「HelloWorld 3.2」のリリース
バージョン3.2はDPO技術を用いたイテレーティブ最適化版です。3.0版と比較して肌色・四肢の正確性が向上していますが、改善は限定的です。そのため、4.0と呼ぶのではなく3.2としています。
**📖**2023.12.15 「HelloWorld 3.0」のリリース
新バージョンはトレーニングデータセットを拡張し、さまざまな芸術スタイル(SF、アートなど)への表現力が向上しました。
スライダーテクノロジーを用いて独自開発した品質強化LoCon(LoCon = Local Adapter)を統合し、画像の質感を向上させ、指や四肢の歪みの問題も緩和しました。
**📖**2023.11.17 「HelloWorld 2.0」のリリース
皆様の長いご耐忍び、誠にありがとうございました。様々な課題を克服した結果、思い描いた形でHelloWorld 2.0のリリースが実現いたしました。HelloWorld 2.0と1.0の主な違いは以下の通りです:
HelloWorld 2.0では、トリガー語の必要がなくなりました。1.0版のトリガー語「leogirl」は東アジア人を強く連想させましたが、トリガー語が不要になったことで、「1girl」といった語であっても、人種が指定されていない場合、東アジア人を生成する可能性は依然としてありますが、国名や肌の色などを使って、人種を明確に指定できるようになりました。たとえば「Chinese(中国人)」「Russian(ロシア人)」「Iranian(イラン人)」「Jamaican(ジャマイカ人)」「Kenyan(ケニア人)」「dark-skinned(黒肌)」「pale-skinned(白肌)」などの語のトリガー効果は以下の通りです。

また、ある程度のキャラクタースタイルに違いが出るように、各国・性別の人物名をプロンプトに記述することも可能です。たとえば「Han Meimei(中国)」「Sophie Martin(フランス)」「Priya Patel(インド)」「Fatima Al-Hassan(アラブ)」「Wanjiru Mwangi(ケニア)」など。上記は一例であり、利用可能なプロンプトは多数あり、ご自身で探求・共有していただければ幸いです。

HelloWorld 2.0は品質と色彩のバランスを調整し、スタイルの選択肢を増やしました。1.0版は「leogirl」を使用すると映画的な雰囲気の肖像が生成される傾向があったのに対し、HelloWorld 2.0は映画テクスチャに縛られていません。部分的には品質関連のプロンプトでカスタマイズ可能です。テスト済みで効果的なプロンプトは以下の通りです:
high-end fashion photoshoot(ハイエンドファッション撮影)、product introduction photo(プロダクト紹介写真)、popular Korean makeup(人気韓国メイク)、aegyo sal(アエゴサル)、Sharp High-Quality Photo(鮮鋭な高品質写真)、studio light(スタジオ照明)、medium format photo(中判カメラ写真)、Mamiya photography(マミヤ写真)、analog film(アナログフィルム)、Medium Portrait with Soft Light(ソフトな光のミディアムポートレート)、real-life image(リアルな画像)、refined editorial photograph(洗練されたエディトリアル写真)、raw photo(ラフな画像)、real photo(リアルな写真)、Scanned Photo(スキャン画像)、film still(フィルムスチル)
これらのプロンプトによる色彩効果は以下の通りです:

HelloWorld 2.0のトレーニングデータセットでは、全身写真の割合を大幅に増やし、SDXLによる全身・遠距離ポートレートの効果を改善しました。1.0版と比較して改善は見られますが、依然として全身画像を生成する際は「adetailer」の使用を強く推奨します。また、VRAMが24GB以上あるユーザーには、1.5xのハイレゾリューション修復を実施することを推奨します。これにより、顔のディテールが著しく改善されます。
**📖**2023.8.29 「HelloWorld」SDXLベースモデルのリリース
重要:HelloWorld 1.0を使用する際は、「leogirl」というトリガー語を明示的に追加してください。
SD1.5ベースモデル「MoonFilm」と異なり、「HelloWorld」はまったく新しいリアリズム的なSDXLベースモデルシリーズです。より多くのユーザーがHelloWorldに触れる機会を得られるように、元のMoonfilmのモデルリンクを維持しました。これは、SDXLプラットフォーム上でMoonfilmの精神的継承と見ることができます。しかしHelloWorldの目指すところは、ポートレートのリアリズムとフィルム風品質の追求にとどまらず、SDXLの優れた情報量とテキスト理解能力を活かして、あらゆるものをリアルに再現する、いわゆる「仮想写真の世界」を徐々に構築することです。
SD1.5のリアリズムベースモデルは非常に高い成熟度に達しており、大幅な性能向上は望めません。SD1.5プラットフォームで何か新しい革命的な技術が登場しない限り、Moonfilm & MoonMixシリーズは基本的に更新を停止する予定です。私は主にHelloWorld SDXL大規模モデルの開発に集中する予定です。1.0版は現在ダウンロード可能で、2.0版は急ピッチで開発中、早期9月上旬のリリースを予定しています。
新規SDXLモデルとして、HelloWorldと従来のSD1.5モデルとの違いは以下の3点です:
SD1.5ベースモデルでは通常、トリガー語を含まないことが一般的です。HelloWorld 1.0を用いる際は、**「leogirl」**というトリガー語を明示的に使用してください。これにより、SDXLモデルがトレーニングデータセットの効果をより安定的に引き出せます。
HelloWorldモデルは1024×1024ピクセルの解像度で直接出力が可能であり、ハイレゾ補正の必要がありません。1024ピクセルで直接出力したクローズアップポートレートの品質はSD1.5版に劣りませんが、遠距離ポートレートの直接出力ではまだ欠点があります。そのため、ADetailerプラグインを使用することが推奨されます。これにより、遠距離顔の問題を効果的に修正できます。
SDXLでは、シンプルな自然言語プロンプトを使うことで出力が簡単になります。より自然な言葉を試してみてください。AIリアリスティック写真の出力でより良い結果が得られます。
何回もテストを経て、推奨される描画パラメータ設定は以下の通りです:
- ステップ数 ≥ 25
- サンプラー:DPM++ 2M Karras
- CFGスケール:10
- サイズ ≥ 1024×1024
- ADetailer:オン
皆様からの試用および非常に貴重なフィードバックを心よりお待ちしております。モデル改善のため、皆様の意見は非常に重要です!
著作権に関する声明:
HelloWorldシリーズモデル(以下「本モデル」)は私(以下「所有者」)により、LiblibAIプラットフォームの協力を得て開発されました。本モデルをLiblibAIおよびCivitai以外のプラットフォームで再配布することは、所有者の許諾なしに違法です。
所有者は、非商業的教育・情報提供目的での本モデルで生成された画像の使用を無料で許可します。ただし、以下の条件を満たす必要があります:
- ユーザーは法令を遵守し、本モデルまたは第三者の権利を侵害しないこと。
- 生成画像のクレジットとして、「created by LEOSAM's HelloWorld base model」と明記すること。
商業的な利用を希望される場合は、所有者との事前商業ライセンス契約が必要です。商業ライセンスおよびモデルカスタマイズに関するお問い合わせは、所有者のホームページ上に掲載されている連絡先からお願いいたします。
SDXLモデルの開発と無料提供は大きな努力を要します。所有者は、オープンソース開発への貢献に対する感謝として、個人利用者向けに本モデルの継続的な無料アップデートを約束します。商業的協業は本モデルの進化と精鋭化に不可欠です。ユーザー皆様の理解と支援に心より感謝いたします。
無断使用は法令違反となる可能性があり、法的責任を問われる場合があります。所有者は本声明の解釈権を留保し、現在の法律・規制に従います。










