Fixed Perspective View
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このLoRAのオリジナルソースはCivitAIです(civitai.com/user/worgman)。無料でダウンロード可能ですが、他の場所に掲載しないでください。
これはカメラアングルを操作するための概念LoRAです。画像を固定された視点で表示します。NSFWコンテンツを意図していますが、それだけに限定されません。このツールで誰がどのような画像を作れるか見たいので、下に画像を投稿してください。
Adetailerや小さな領域のインペイントは、カメラアングル操作に重点を置くこの視点LoRAと互換性が低いため、うまく機能しません。この問題を軽減するには、LoRAを無効化する、使用重みを大幅に減らす、またはインペイントのノイズ低減値を下げるよう推奨します。
Adetailerのインペイントノイズ低減値を0.25–0.30に設定すると、わずかにディテールを犠牲にしながらも、この問題を大抵解決できます。
Spyview
これは固定視点LoRAの補足概念です。V1.0時点では、Fixed Perspective V1–V3とは完全に独立しています。今後変更される可能性もありますが、現時点では両者を分けて維持し、このページ上でそれぞれのアップデートを継続する予定です。両方ともカメラ操作用のLoRAです。
Spyview V1では、スタイルへの影響が軽減され、前景に配置できる要素のバリエーションが増えました。ただし、V1はまだ完全ではありません。LoRAに幅広い柔軟性を許可したため、たまに不良出力が発生します。適切なプロンプトでこれを回避できます。
画像内の被写体がカメラからどの程度離れているかは、「フレーム外」タグを使用してある程度制御できます。被写体の大部分を「フレーム外」に指定すると、LoRAは被写体を前景に近づけようとします。逆に、プロンプトに「フルボディ」と記述すると、LoRAは全体を出力する必要があるため、被写体がより遠くに見えるようになります。
V1の長所は?
- 私の他のV1 LoRAと比較して、スタイルへの影響が非常に低い。
- 非常に柔軟。
- 前景に複数の要素を組み合わせてプロンプトできます。すべてが動作するわけではありませんが、実験してみると、興味深い組み合わせが見つかるでしょう。
V1の普通の点は?
- 各トリガー語は基本的に区別されていますが、一部重複があります。
- スライディングドアとドアの前景はかなり重複しています。
- ドアの前景は他の概念を圧倒する傾向があります。
- ウィンドウの前景は改善の余地があります。室内・室外からの視点の両方を制御しようとしすぎた結果、問題が生じました。
- ドアの素材タイプ(例:ガラスドアの前景)をプロンプトすると、実際に動作します。トレーニングデータにはガラスドアの画像は含まれていませんが、それでも有効です。この方向性をさらに進め、LoRAにこのような柔軟性を追加したいと考えています。今後の進捗に注目してください。
V1の課題点は?
- LoRAがプロンプト者の意図を正確に捉える精度が低いです。プロンプト内の特定のタグによって出力画像が大幅に変化することがあります。これは柔軟性には良いですが、特定のアイデアの再現性には不利です。このバージョンでは、プロンプトの意図と異なる画像が出力され、テストが非常に困難でした。
- 一部の概念タグは過度に希薄で、うまく機能しません。オブジェクトの前景は全体のデータセットの約3%しか占めていないため、期待するような結果は得られません。
- 前景に入れるものの「構造」が、プロンプト次第で意味をなさないことがあります。ドアの前景では、ドアが非現実的な角度で表示されたり、壁とドアの両方にドアノブや穴が複数現れたりします。
- キーホールの前景は、モデルが画像上にキーホールを描画してしまいます。これを修正するため、トリガー語を変更する必要があります。キーホールは、切り抜きの最上部に配置されたり、被写体の上に置かれたりします。面倒ですが、試行の約40%はうまくいきました。しかし、問題が発生した場合、出力が台無しになります。ネガティブプロンプトに「keyhole」と記述することで、多少改善できます。
固定視点ビュー
V1
私が初めて作成した概念LoRAで、これまで見つけた画像を長く収集してきたものです。十分な量が集まったと感じ、試してみた結果がこれです。今後さらに画像を収集して更新する必要があるでしょう。良い出力を得るにはADetailerとHiResFixが必要です。複数の被写体をプロンプトする場合は、インペイントで修正する必要がある可能性が高いです。

V2
トレーニングに使用したデータセットのサイズを拡大し、画像の一部を分類して、さらにカメラ操作を制御するためのトリガー語を提供しようとしました。使用した画像量が膨大で、タグの精査や整理に使える時間が限られていたため、手は粗く、改善の余地があります。しかし、私が目指した制御の一部を実現できました。


V3
トレーニングデータセットから一部の画像を削除し、新しいソースを追加して、V2やV1ほどスタイルへの影響を抑えるように試みました。タグの重みを調整して、さらに制御を追加しようとしました。V3はV2よりも厳密に優れているわけではありません。





















