Hikarimagine XL

詳細

ファイルをダウンロード

モデル説明

これはAnimagine XL 4.0をベースにした実験モデルです。

元のモデルはCagliostro Research Labによって開発されました。

ライセンス: Open rail ++

この記事(https://www.reddit.com/r/StableDiffusion/comments/1o1u2zm/text_encoders_in_noobai_are_dramatically_flawed_a/)を読んで、少し試してみたくなりました。おそらく、トレーニング前にテキストエンコーダーをあらかじめ学習させ、その後は固定したままトレーニングを行う方がはるかに良いアイデアでしょう。私はClip LをAnimagine XL 4.0に統合し、70万枚の画像を用いて3エポック学習を重ね、破損した画像を修正し、知識を2025年5月頃のレベルまで向上させました。ただし、これはまだ十分ではないかもしれません。さらにトレーニングを行い、2025年9月まで知識を更新する予定です。

また、無料で画像を生成できるシンプルなプラットフォームも構築しました:https://miyukiai.com/

ただし、GPUの数が限られているため、待ち時間が長くなる場合があります。

私の作業に賛同いただけるなら、寄付によってモデル開発を支援し、このプラットフォームを無料で維持できます:https://ko-fi.com/suzushi2024

以下は、AIモデル全般に関するちょっとしたメモと、現在の今後の計画です。

元々の計画は、優れたSD3.5 Mediumアニメベースモデルを開発することでした。数か月前から、その周Mediumアニメベースモデルを開発することでした。数か月前から、その周辺で多くのプロジェクトが進行していました。もし複数のベースモデルとLoRAが存在すれば、SD3.5Mのための非常に良いエコシステムが構築できるはずです。しかし、これらのプロジェクトの多くはトレーニング中に中止または失敗したようです。さらに、新しい変更により、すべてのSD3/3.5シリーズモデルがCivitAIから再び削除されました。それでも、興味のある方のために、このシリーズをHuggingFaceで継続して更新していくつもりです:https://huggingface.co/collections/suzushi/miso-diffusion-m

また、より小さなDITベースモデルをトレーニングすることにも関心があります。これまでのところ、Luminaは有望に思えます。大半のDITモデルはサイズが大きく、RTX 4080などで画像生成に最低90秒もかかるのは長すぎます。そして、こうしたハイエンドハードウェアを所有している人はほとんどいません。そこで、小さくて堅牢なモデルを選ぶことが目標です。テキストエンコーダーのファインチューニングの準備を始めましたが、さらに多くの準備が必要です。Sanaでの別の実験的トレーニングも行いました。Sanaは生成が速い一方で、パラメータが少ないため、画像に欠陥が生じやすく、特に手の部分で「ボディホラー」的な結果が出やすいです。また、細部の捉え方が遅いため、次世代モデルには不適切だと判断しました。

このモデルで生成された画像

画像が見つかりません。