anal x-ray (NetaYume Lumina 3.5)

詳細

ファイルをダウンロード

モデル説明

私はこのモデルを試してきましたが、今は他のことに集中するため一時的に休憩しています。

Grok 4.1の推論モデルを使って画像にタグを付け、軽くチェックと調整を行った後、学習を開始しました。

「anal x-ray」という概念を学習させるためにいくつかの画像を選びました。しかし、画像を反転する機能が非常に問題を引き起こしていたことが判明しました——四肢が壊れたり、プロンプトの説明と画像が一致しなくなったりしていました。この機能をオフにしたところ、モデルは正常に動作し、収束も大幅に早くなりました。

これにより、画像のデータ拡張はもはや意味があるのか疑問に思いました。むしろ、より良質で構造化されたデータと正確なキャプションを持つことがはるかに重要だと考えます。

バグの修正が遅れたため、学習をいくつかのステップ追加して補いました。

最初は5,000ステップ、線形学習率(LR)2e-4、バッチサイズ4で開始しました。その後、学習率をコサイン減衰(2e-4から4e-5まで)に変更し、バッチサイズを8に倍増しました。サンプルの出力を観察した結果、12,000ステップで学習を停止しました。

全体をvast.ai上でai-toolkitとRTX Pro 6000 Blackwell(主に大きなバッチサイズを試すため)を使用して実行しました。

関連する概念として、以下のようなものを試してみてもよいでしょう…?

過学習を避けるために重みを減らすことを推奨します。重みは0.8〜0.9の範囲に保ち、1を超えないようにしてください。

このモデルで生成された画像

画像が見つかりません。