Seedream
세부 정보
파일 다운로드
모델 설명
Seedream 3.0/4.0 + 이제 현장 생성도 가능합니다!
https://seed.bytedance.com/en/seedream4_0
아래 세부 정보는 원래 다음 주소에 게시되었습니다: https://seed.bytedance.com/en/tech/seedream3_0
기술적 혁신
이전 모델 Seedream 2.0과 비교하여, 우리는 기존의 여러 과제를 해결하기 위해 혁신적인 전략을 도입했습니다. 이 과제들에는 이미지 해상도 제한, 복잡한 속성 준수, 세밀한 타이포그래피 생성, 그리고 시각적 미학과 신뢰성의 비최적화가 포함됩니다.
이러한 혁신은 다음 네 가지 측면에서 주로 나타납니다:
• 데이터 계층에서는 이미지 클러스터 분포와 텍스트 의미적 일관성이라는 두 개의 정교한 축을 기반으로 하는 동적 샘플링 메커니즘을 도입하여 데이터셋 규모를 약 100% 확장했습니다.
• 사전 학습 단계에서는 2.0 대비 여러 개선 사항을 적용하여 확장성, 일반화 능력, 시각-언어 정렬을 향상시켰습니다: i) 혼합 해상도 학습; ii) 다중 모달 RoPE; iii) 표현 정렬 손실; iv) 해상도 인식 타임스텝 샘플링.
• 후학습 최적화 단계에서는 다양한 미학적 캡션과 VLM 기반 보상 모델을 활용하여 모델의 종합적 능력을 더욱 향상시켰습니다.
• 모델 가속화 단계에서는 일관된 노이즈 기대치를 통해 안정적인 샘플링을 촉진하여 추론 중 함수 평가 횟수(NFE)를 효과적으로 줄였습니다.

그림 1 Seedream 3.0은 인공 분석 이미지 어레나 리더보드에서 1위를 차지했습니다. 데이터 누락으로 인해 Imagen 3의 초상화 결과와 Seedream 2.0의 전체 결과는 다른 모델들의 평균값으로 표시되었습니다.
반복적 모델 성능
Seedream 2.0과 비교하여 Seedream 3.0은 여러 차원에서 중대한 진전을 이뤘습니다:
• 네이티브 고해상도: 후처리 없이 2K 해상도 출력을 기본 지원하며, 더 높은 해상도와 다양한 화면비에 대한 호환성도 제공합니다.
• 종합적 능력 향상: 텍스트-이미지 정렬, 구성 구조 설계, 미학적 품질, 텍스트 렌더링 능력에서 큰 개선을 보였습니다.
• 텍스트 렌더링 성능의 획기적 향상: 소형 글자 생성, 중국어 문자 정확성, 고미학적 장문 레이아웃에서 뛰어난 성능을 발휘합니다. 이 모델은 소형 텍스트 생성과 장문 레이아웃의 산업적 과제를 해결하며, Canva와 같은 플랫폼의 수작업 디자인 템플릿을 능가하는 그래픽 디자인 출력을 제공합니다. 정밀하고 미학적으로 정제된 텍스트 생성 능력을 활용해 다양한 글꼴, 스타일, 레이아웃을 자연스럽게 통합한 디자이너 수준의 포스터를 손쉽게 생성할 수 있습니다.
• 미학적 향상: 이미지 미학 품질에서 큰 개선을 이루었으며, 영화적 장면 렌더링과 보다 사실적인 텍스처를 가진 초상화 생성에서 뛰어난 성능을 발휘합니다.
• 초고속 생성 경험: 여러 혁신적인 가속 기술을 통해 추론 비용을 크게 줄였습니다. 이제 1K 해상도 이미지의 엔드투엔드 생성이 단 3.0초만에 완료됩니다.

그림 2 인간 평가 결과. Seedream 3.0은 이미지-텍스트 일치성, 구조, 미학 측면에서 다른 모델들을 능가합니다.

