Women Wrestlers
詳細
ファイルをダウンロード
モデル説明
実際の画像を使わずにこれを作成するのは、非常に面倒だった。しかし、作業を完了するために、実際の画像を参考にして置き換え用の画像を生成した。プロセスが気になるなら、少し興味深いかもしれない。
私は、何かを描くつもりで、プロの女性レスラーの画像を30枚収集した。それらからJoy-Captionを使ってキャプションを生成し、Z-Imageを通すことで作業の基盤を得た。
元の画像にできるだけ近づけるために、数時間かけて試行錯誤し、同数の30枚を厳選した。その結果、第1段階ではそれなりの成果を得ることができた。Z-Imageが過剰に学習していないか心配だったので、顔をマスクして白く塗りつぶした。この問題は第2段階(最終段階)でまた私を悩ませることになるだろう。
これらの画像をOneTrainerに通し、通常のシステムプロンプト(白いマスクを無視してください)を適用して、Qwenが扱うための画像を生成した。
Z-Imageはこれらの人物の一部を認識しているため、誤りを防ぐために、元の画像と類似する人物の画像はすべて削除した。これにより、実在する生者または死者の実際の画像は一切使用していないと、正直に言える。残った画像の顔部分もマスク処理し、すべて善意を持って次のステップに進んだ。その後、白または黒のオーバーレイで画像を修正し、Qwen-image-editを通す際に変更したい部分を明確にし、必要に応じて衣装の装飾を再現するためのデザインを描き加えた。
そして実際にその作業を実行し、Qwenにスケッチの意味と、私が目標を達成するために必要と判断した要素にどう変換してほしいかを説明した。
この方法で、筋肉を強調し、顔の輪郭をより硬くし、衣装(いわゆるコスチューム)にエンブレムを追加し、手動で(補助を受けて)キャラクターの外見を再構築した。ただし、その特徴のほんのわずかな示唆だけを残した。
これらの画像から、選んだ30人の異なるレスラーそれぞれについて2枚ずつペアを選び、最終データセットとして60枚の画像を用意した。
その後、これらの画像をOneTrainerに通して最終段階を実行した。
私は、許容され、安全なコンテンツのガイドラインに完全に適合するよう、外見の混乱に慎重を期したつもりだ。実際の人物の類似性が伝わることは絶対にあり得ない。なぜなら、私が提供したことは一切なく、Z-Imageが「これは誰?」という人物の、ほんの少し、たまたま、似ているかもしれないという類似性を再現した場合でも、それをフィルタリングしたからだ。
しかし、もし最終ユーザーが生成した画像に、元の実在人物(そのキャラクターを演じた人物)の類似性が含まれていたとしたら、それは人間的な解釈、または、私たちがデータセットを人間に限定しているための偶然の部分的類似、あるいはZ-Image自体がその人物を認識していることによるものである。これらのいずれも、私のLoRAとは無関係である。LoRAは、色、シーン、オブジェクト、肌の色、あるいは人物と直接関係のない通常の視覚的イメージの組み合わせによって、その深いデータへのアクセスを容易にするようにパスを変更するだけである。
ふう





