CinEro_SD15
詳細
ファイルをダウンロード
モデル説明
イントロ
これは単なる趣味と実験として、プロの写真を強化するのに適したモデルを構築するためのものです。私はニコンのカメラと多くのヴィンテージレンズを使用しています。モーディーでシネマティックな画像を生成し、滑らかなボケと「アナログスタイル」を再現できるSDモデルを作成することを期待しています。ただし、このモデルをハードなNSFWコンテンツでトレーニングする予定はありません。そのため、「cinero」モデルからはそれらを期待したりリクエストしたりしないでください。私の好みは芸術、美しさ、そして感情です。
プロンプトに関するヒント
いくつかの例:
"[grayscale : [dimmed colors : vibrant color splashes : 16] : 8]" — 私はこれを「時系列トリック」と呼んでいます。これは、現在のステップに応じてプロンプトを変化させる仕組みです。このプロンプトを使うと、SDはステップ1~7で「グレースケール」、ステップ8~15で「薄めた色」、その後は「鮮やかな色の飛び散り」を使用します。ネストのレベルに厳密な制限はないと思います。これを使うと、各ステップでSDが処理するトークン数を効果的に減らすことができます(アクティブなプロンプトの長さを短くできます)。初期ステップでは細部を指定する必要はなく、風景の概要だけを示せば十分です。後半のステップでは、構成や照明を説明するのにトークンを費やす必要はない(と思われます)。したがって、理論的には、このトリックと多くのステップ数を組み合わせることで、プロンプトを短く保ちながらも非常に豊かなプロンプトを構築できます。
PS:上のプロンプトは、SDに非常に限られた色で、一部の要素(例:髪の毛や服の一部分)だけが極めて鮮やかに描かれるシーンを生成させます(私は、主人公にわずかに鮮やかな髪の毛や服の部分があるグレースケール画像を示しました)。おそらく、この効果を逆にすることも可能で、全体を色付きにし、一部の領域だけをグレースケールにすることもできます。[Audrey Hepburn : Milla Jovovich : 16] — Automatic1111のXYZプロットスクリプトを使って、一つの顔から別の顔への滑らかな遷移を楽しむことができます。この顔/体の時系列トリックは、私のモデルが最も現実的で正確な解剖学的構造を描画するのに役立ちます。このトリックを使って、動的なLoRaの重み付けを実装することも可能ではないかと思います。LoRaにトリガー単語がなければ、単に [ <lora: ...:0.42> : <lora: ...:0.99> : 16] のようにLoRaトークンを記述すればよいですし、複数のLoRaからネストされた「トリガー単語」を用いることもできます。
"shot on %Brand Name% %Lens Mark Name% vintage lens" — SDが記憶しているヴィンテージレンズの名前を見つけられれば、画像の「アナログスタイル」を向上させる可能性があります。私は以前、「Carl Zeiss Sonar」、「Nokton」、「Helios 44-2」などを使用してきましたが、特定のレンズモデルが独自の効果をもたらすかどうかは確認できていません。あなた自身で確認したレンズモデルのリストがあれば、ぜひこのモデルのコメント欄でコミュニティと共有してください [%PICTURE OF LEELOO saying HELP%]
近い将来、美しいヴィンテージレンズで撮影された多数の画像を用いてトレーニングデータセットを構築し、このモデルにオールドスクールな写真の魂を注入する予定です。そのために独自のトリガー単語を使用するか、「vintage lens」という言葉を使う予定です(まだ未定)。
「perfect anatomy」、「anatomically correct body」、「anatomically correct hand」、「perfect hands」、「anatomically correct fingers」、「perfect limbs anatomy」などの解剖学的な表現を用いると、正確な解剖学的構造を得る確率が高まります。
「smooth bokeh」、「swirly bokeh」、「depth of field」、「smooth background」などの言葉を使用して、被写体と背景との分離を強調してください。
「turbulent fog」、「mist」、「haze」と「mystical lighting」を組み合わせると、シーンの奥行きが明確で、空気感のある美しい画像が得られます。「early morning」や「blue hour」という表現を使えば、冷たい朝の雰囲気を演出できます。
「scary face expression」、「surprised expression」、「inviting expression」、「lustful face」など、顔の感情を強調する表現を用いると、顔の感情や「ボディランゲージ」の可視化が向上します。効果はありますが、まだ十分に顕著ではありません。
このモデルの優先順位
シネマティックでフォトリアリスティックな女性キャラクターの画像(SFW、ソフトコアNSFW)
自然なボディ、肌の質感、[改善予定]環境(汚れ、ほこり、床に落ちている物、レトロな家具や機器)
ヴィンテージレンズ(Carl Zeiss Sonar、Jupiter 37a、Helios 44-2)のリアルな光学/写真効果(滑らかな渦巻きボケ、アナログフィルム粒、収差 [進行中])
[改善予定] カラーリング、廃墟、劣化した室内、抑うつ的な雰囲気、薄暗い色調、霧、もや、蒸気
どのように作られたか
これはAnalog Madness、URPM、Cyber Realistic、epiCRealism、ICBINP、Cine Diffusionの複数のマージを、係数0.18~0.35で行い構築されています。
似た特徴(シネマティックなムード、大気感、魅力的な解剖学、ソフトコア/エロ、レトロな室内、朝の屋外など)を持つ厳選されたアート写真のデータセットを2つ用いてトレーニングされました。データセットの画像総数は600〜700枚です。
Kohya_SSを使用して、各画像に対して20ステップずつLoRaとしてトレーニングし、その後、上記のチェックポイントのマージに約0.3の係数で統合しました。効果を高めるには、同じ名前の私のLoRaと併用することをお勧めします。
今後の改善点(優先順位順)
[完了] 手と指の生成の修正/改善
[進行中] 雰囲気、ボケ、色収差、球面収差、光漏れ、古いアナログフィルムの特徴の改善
足と趾の生成の修正/改善
[進行中] カラーリング、廃墟、破壊された室内、忘れ去られた屋外風景の追加(良いデータセットがあれば教えてください ;))
目と解剖学の微調整/改善
フィードバックをお待ちしています…
















