SDXL - Asphalt Potholes
詳細
ファイルをダウンロード
モデル説明
自分の街の写真をいくつか撮りました。ご想像の通り、道は完璧な状態です。それらをAIが生成した画像と混ぜ合わせると、できあがり。しかし、隣人たちに「これらの写真は、穴ぼこのことについて市役所に文句を言うために撮ったわけじゃないんです」と説明しなければならず、自分が馬鹿のように見えたのは残念でした。
LoRAのサイズについても、試してみたかったポイントです。私はこれまでKohyaのリサイズ機能を使ったことがなく、800MBほどもある巨大なLoRAをダウンロードしてしまったため、それをリサイズしてみました。ネットワークランクを32に設定すれば、ファイルサイズは約200MBになると予想していたのですが、実際には25MB程度しかありませんでした。少し疑念を持ちましたが、同じプロンプトとシードでテストしてみたところ、ほぼ差がありませんでした。チェックポイントやLoRAのコレクションが次第に膨らんでいく中、これによってストレージを節約できる可能性があります。ただし、他人が作成したLoRAにはこの操作が適用できません。なぜなら、ハッシュIDが変わってしまい、共有投稿がうまくいかなくなるからです(そもそも、共有投稿はすでにうまくいくか否かが運次第ですが)。
最初から小さめのLoRAをトレーニングできれば良いのですが、ランクが低すぎる設定では、一部のモデルが動作せず、LoRAが使えない、あるいはそもそもトレーニング自体が失敗してしまうことがあります。
ファイルサイズの件は以前から知っていました。ファイルの大きさが必ずしも重要ではないことも。テキスト逆転(textual inversion)はたった5〜25KBのサイズなのに、大きな影響を与えることがあります。ただ、これはデータセットの規模と複雑さに依存するかもしれません。
* このLoRAを使わなくても、一部のモデルで同じプロンプトを使うと同様の結果が得られますが、私は異なる角度からの穴ぼこの深さ、そして新しく舗装されたアスファルトの濃い黒と、風化した古いアスファルトとのコントラストに重点を置いていました。
* 過学習しました。画像がかなり多く、モデルはすぐにコンセプトを習得しました。通常であれば、データセットのサイズに応じて、数百分のステップごとにモデルを出力していましたが、このLoRAをトレーニングする前に、より複雑なモデルを試していたため、新しくファイルが出力されるたびに前のファイルを上書きする設定にしてしまっていたのです。その結果、ステップ数が少ないモデルを失ってしまいました。つまり、このLoRAはプロンプトを圧倒してしまいます。そのため、低強度のプロンプトや、長く詳細なプロンプトを推奨します。
* コケの部分は、ただ私が見た目が良いと思ったので追加しただけで、実際にはそれについてトレーニングされていません。ただし、一部の画像には雑草が写っていたため、AIが勝手にそれを処理してくれたのでしょう(画像内の緑色の部分は、キャプションで何を意味しているか明確に説明しない限り、何を指すかは不明です)。
















