Seedream
詳細
ファイルをダウンロード
モデル説明
Seedream 3.0/4.0 + オンサイト生成が利用可能に!
https://seed.bytedance.com/en/seedream4_0
以下の詳細は元々こちらに掲載されました:https://seed.bytedance.com/en/tech/seedream3_0
技術的革新
以前のモデルSeedream 2.0と比較して、我々は既存の課題(画像解像度の制限、複雑な属性の忠実な再現、微細なタイポグラフィ生成、視覚的審美性および忠実度の不十分さ)に対処するため、複数の革新的な戦略を採用しています。
これは主に以下の4つの側面に反映されています:
• データ階層では、画像クラスタ分布とテキスト意味的整合性という2つの直交する軸にまたがる新規な動的サンプリングメカニズムを導入し、データセット規模を約100%拡大しました。
• プリトレーニング段階では、2.0と比較して以下の改善を実装し、スケーラビリティ、汎化性、視覚-言語アラインメントの向上を実現しました:i) 混合解像度トレーニング;ii) クロスモダリティRoPE;iii) 表現アラインメントロス;iv) 解像度認識タイムステップサンプリング。
• ポストトレーニング最適化段階では、多様な審美性キャプションとVLMベースの報酬モデルを活用し、モデルの包括的機能のさらなる向上を図りました。
• モデル高速化において、一貫したノイズ期待値を通じて安定したサンプリングを促進し、推論時の関数評価回数(NFE)を効果的に削減しました。

図1 Seedream 3.0は、人工分析画像アリーナリーダーボードで第1位を獲得しました。データ不足のため、Imagen 3の人物画結果とSeedream 2.0の全体結果は、他のモデルの平均値で表されています。
繰り返しモデル性能
Seedream 2.0と比較して、Seedream 3.0は複数の次元で顕著なブレイクスルーを達成しています:
• ネイティブ高解像度:後処理なしで2K解像度の出力をネイティブにサポートし、より高い解像度にも対応し、さまざまなアスペクト比に柔軟に適応します。
• 総合的機能の強化:テキスト-画像アラインメント、構成構造設計、審美品質、テキストレンダリング機能において顕著な向上を示しました。
• テキストレンダリング性能の大幅な向上:小さなフォントの生成、中国語文字の精度、高審美性の長文レイアウトで優れています。モデルは、小文字生成と長文レイアウトにおける業界の課題を解決し、Canvaなどのプラットフォームで作成された手動設計テンプレートを上回るグラフィックデザイン出力を実現しました。精密で審美性の高いテキスト生成機能を活用し、多様なフォント、スタイル、レイアウトをシームレスに統合したデザイナー級ポスターを容易に作成できます。
• 審美性の向上:画像の審美品質において顕著な向上を実現し、映画的シーンのレンダリングや、よりリアルな質感を持つポートレート生成で優れたパフォーマンスを発揮します。
• 超高速生成体験:複数の革新的な高速化技術により、推論コストが大幅に削減されました。1K解像度の画像のエンドツーエンド生成は、今やわずか3.0秒で完了します。

図2 人間評価結果。Seedream 3.0は、画像-テキストのマッチング、構造、審美性のいずれにおいても他のモデルを上回っています。

