Z-Imageでこのようなコンセプトを実現するには、これが最良だと思います。
トレーニングノート: 32/32、150枚の画像、qwenvl3の非常に詳細なキャプション、0.0002
強度を約0.8から始め、正しい詳細が見られない場合は高く、問題が見られる場合は低く調整してください。