NewBie image

詳細

ファイルをダウンロード

モデル説明

NewBie image Exp0.1

🧱 Exp0.1 ベース

  • NewBie image Exp0.1 は、Luminaアーキテクチャに関する研究を通じて開発された 3.5B パラメータのDiTモデルです。

    この知見を基に、Next-DiTを基盤として、テキストから画像を生成するための新しいNewBieアーキテクチャを設計しました。

    NewBie image Exp0.1 モデルは、この新しく構築されたシステム内で学習され、NewBieテキストから画像生成フレームワークの最初の実験リリースを表しています。

テキストエンコーダー

  • 主要なテキストエンコーダーとしてGemma3-4B-itを使用し、その最終から2番目のレイヤーのトークン隠れ状態に条件付けます。また、Jina CLIP v2からプールされたテキスト特徴量を抽出し、プロジェクションして時間/AdaLN条件付けパスに融合します。Gemma3-4B-itとJina CLIP v2を組み合わせることで、プロンプトの理解力が強化され、指示の遵守性が向上します。

VAE

  • FLUX.1-dev 16チャネルVAEを使用して画像を潜在変数にエンコードし、より豊かで滑らかな色再現性と細かいテクスチャの詳細を実現することで、NewBie image Exp0.1の優れた視覚的品質を守ります。

プロンプト

  • XML構造化プロンプト

  • 自然言語プロンプト

  • タグプロンプト

🖼️ タスクタイプ

NewBie image Exp0.1 は、高品質なアニメデータの大規模コーパスで事前学習されており、非常に詳細で視覚的に印象的なアニメスタイルの画像を生成できます。

実験のために、データセットのテキストをXML構造化形式に再フォーマットしました。経験的に、これにより注意の結合と属性・要素の分離が改善され、収束速度も向上しました。

また、自然言語およびタグ入力もサポートしています。

🧰 モデルズー

NewBie image Exp0.1: Hugging face | modelscope

Gemma3-4B-it: Hugging face | modelscope

Jina CLIP v2: Hugging face | modelscope

FLUX.1-dev VAE: Hugging face | modelscope

💪 学習プロセス

🔬 参加者

コア

メンバー

✨ 感謝

  • Alpha-VLLM Org が高度なLuminaファミリーをオープンソース化してくれたことに感謝します。これは私たちの研究に不可欠でした。

  • Google が強力なGemma3LLMファミリーをオープンソース化してくれたことに感謝します。

  • Jina AI OrgJinaファミリーをオープンソース化してくれたことに感謝します。これにより、さらに研究が可能になりました。

  • Black Forest LabsFLUX VAEファミリーをオープンソース化してくれたことに感謝します。強力な16チャネルVAEは、画像品質向上の鍵となるコンポーネントの一つです。

  • Neta.artLumina-image-2.0ベースモデルのファインチューニングとオープンソース化をしてくれたことに感謝します。Neta-Lumina は、Next-DiTがアニメタイプでどのように動作するかを研究する機会を提供してくれました。

  • DeepGHS/narugo1992/SumomoLee が高品質なアニメデータセットを提供してくれたことに感謝します。

  • Nyanko が初期の支援とサポートをしてくれたことに感謝します。

📖 貢献者

  • Neko, 衡鲍, XiaoLxl, xChenNing, Hapless, Lius

  • WindySea, 秋麒麟热茶, 古柯, Rnglg2, Ly, GHOSTLXH

  • Sarara, Seina, KKT机器人, NoirAlmondL, 天满, 暫時

  • Wenaka喵, ZhiHu, BounDless, DetaDT, 紫影のソナーニル

  • 花火流光, R3DeK, 圣人A, 王王玉, 乾坤君Sennke, 砚青

  • Heathcliff01, 无音, MonitaChan, WhyPing, TangRenLan

  • HomemDesgraca, EPIC, ARKBIRD, Talan, 448, Hugs288

🧭 コミュニティガイド

はじめ方ガイド

LoRAトレーナー

💬 コミュニケーション

📜 ライセンス

  • モデル重み: Newbie Non-Commercial Community License (Newbie-NC-1.0)

    適用対象: モデル重み/パラメータ/設定および派生作品(ファインチューニング、LoRA、マージ、量子化バージョンなど)

    非営利目的でのみ使用可能で、同様のライセンスのもとで共有する必要があります。

    詳細は NewBie-image-Exp0.1 LICENSE.md をご確認ください。

  • コード: Apache License 2.0

    適用対象: 本プロジェクト内の学習・推論スクリプトおよび関連ソースコード

    詳細は Apache-2.0 をご確認ください。

⚠️ 免責事項

このモデルは予期しない、または有害な出力を生成する可能性があります。ユーザーは、その使用に起因するすべてのリスクおよび潜在的な結果について、責任を負います。

このモデルで生成された画像

画像が見つかりません。