Flux Equirectangular 360° Panorama

詳細

ファイルをダウンロード

モデル説明

これはFLUX.1 Dev用のLoRAで、VR内で没入型環境として閲覧したり、スカイボックスとして使用できる等角円筒投影の360度パノラマの品質を向上することを目的としています。

より詳しいノートを含む更新されたワークフローの例はこちら:/model/745010?modelVersionId=833115

情報

トリガーフレーズは「equirectangular 360 degree panorama」です。「spherical projection」と言うのは避けてください。なぜなら、それは等角円筒投影でない球面画像を生成しやすいからです。画像解像度は常に2:1のアスペクト比にしてください。1024 x 512や1408 x 704は非常にうまく動作し、訓練データでも使用されました。2048 x 1024も問題ありません。重みは0.5~1.5を推奨します。画像が球面的な歪みではなく、あまりにも平らに生成されてしまう場合、重みを1より大きくしてみてください。ただし、これにより画像の細部が悪影響を受ける可能性があります。Fluxのガイドance値については、リアルなシーンでは約2.5を推奨します。

ブラウザで球面画像を閲覧できるツールはこちら:https://renderstuff.com/tools/360-panorama-web-viewer/ ウェブサイト上でインタラクティブモードで画像を表示したい場合(対応しているサイトでは)、exiftool(Windows用)で以下のようなコマンドを実行して、equirectangular投影のメタデータを追加できます: path\to\exiftool.exe -XMP:ProjectionType="equirectangular" image.png

CivitaiでVRネイティブ対応はいつですか? :)

VRシステムをお持ちの場合、SteamVR Media Player、Deo VRなど多くのVRメディアプレイヤーで等角円筒投影画像を没入型環境として閲覧できます。

また、ステレオイメージノードと深度マップを使用して、ステレオパノラマ画像(アスペクト比4:1)を作成することもできます。この画像はVRで閲覧すると、深度マップで決定された距離によってオブジェクトが実際の深さ感で表示されます。標準的なMiDaS深度マップと、ステレオイメージノードのフィル技法としてpolylines_sharpを使用すると、良い結果を得られました。他の深度マップ手法の方がより良い結果を出す可能性もありますが、等角円筒投影パノラマ用に設計された深度モデルが存在するかどうかは不明です。

他のLoRAとの互換性は比較的良好ですが、多くのLoRAをテストしたわけではありません。より高速な生成(20~30ステップではなく8~10ステップ)を望む場合、dev-to-schnell LoRAと組み合わせると非常にうまく動作します。ただし、テクスチャが若干リアルさを失い、よりカートゥーン風になる可能性があります。

このモデルはランク32で、128枚の訓練画像(3072ステップ)を用いて24エポック学習されました。この時点で、等角円筒投影フォーマットの理解が収束し、それ以上の学習は効果が見られませんでした。キャプションには、JoyCaptionで生成された詳細なキャプションに若干の手動編集を加えたもの、および等角円筒投影の構造に関する基本的な情報を使用しました。AI Toolkitを使用して学習しました。

制限事項

このモデルはシーム問題を完全には修正できません。Fluxはトランスフォーマーモデルであるため、畳み込みモデルのように、巧みなパディング手法を用いた非対称タイルサンプリングはできません。一方で、Fluxはトランスフォーマーモデルであるため、画像の反対側を自然に相関させる長距離注意機構を持ち、この注意機構は訓練可能です。

ただし、このモデルはほとんどの場合、シームを大幅に改善しており、画像に円形シフトを適用した後にインペインティングを行うだけで、シームを修正できることがほとんどです(シームの両側のオブジェクトが完全に不整合でない限り)。このシーム問題を修正するためのワークフロー例を提供しています。

訓練データの大部分は風景パノラマで構成されているため、このモデルは風景に非常に優れています(ベースのFluxもそれほど悪くありません)。しかし、室内シーンの訓練データは極めて少なかったため、室内シーンでは比率が大きくずれ、オブジェクトが予想より大きく見えたり、壁の数が正しくなかったり、顔が歪んだりすることがよくあります。今後、シーンのバランスを改善して再学習したいと考えています。

出典

このLoRAは、主にFlickrの等角円筒投影パノラマグループから入手したフリーの等角円筒投影画像を用いて学習されました。これは、ウォーターマークのない高品質な写真が豊富だからです。以下の方々の画像を使用しました:j.nagel、Kevin Jennings、Uwe Dörnbrack、Cristian Marchi、Patricia Müller、Tiger Lin Panowork、Faillace。これらの方々の優れた写真がこの作品を可能にしました。このモデルが出力する画像に、訓練セットと類似する画像が大幅に含まれることはほぼなく、これらの画像はあくまで球面レンズの歪みが画像に与える影響を示すための例でした。

このモデルはFLUX.1 Devを基盤として構築されているため、このモデルで生成された画像は依然としてFLUX.1 Devの非商業利用ライセンスに従う必要があります。

このモデルで生成された画像

画像が見つかりません。