Pony V7 base

세부 정보

파일 다운로드

모델 설명

Pony V7은 AuraFlow 아키텍처를 기반으로 한 다재다능한 캐릭터 생성 모델입니다. 이 모델은 다양한 스타일과 종류(인류형, 앤트로, 페럴 등)를 지원하며, 자연어 프롬프트를 통해 캐릭터 간 상호작용을 처리합니다.

허구적

우선, 텍스트, 이미지, 음성, 그리고 곧 영상까지를 통해 AI 캐릭터를 생동감 있게 구현하는 다중 모달 플랫폼인 Fictional을 소개합니다. PonyV7, V6, Chroma, Seedream 4 및 기타 고급 모델을 기반으로 구동되는 Fictional은 자신의 삶을 살고 자신만의 이야기를 나누는 캐릭터를 탐색하고, 생성하며, 상호작용할 수 있게 해줍니다.

Fictional은 V7과 같은 모델 개발을 가능하게 하는 핵심 플랫폼이기도 합니다. 다중 모달 AI 캐릭터의 미래에 관심이 있다면, iOS 또는 Android에서 Fictional을 다운로드하여 우리의 미래를 함께 만들어 주세요!

iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app

문의하기

Fictional 및 Pony 모델에 대해 궁금한 사항이 있다면 Discord 서버에 참여해 주세요.

중요 모델 정보

오래 기다리게 해드려 죄송합니다. V6 출시 이후 이미지 생성 모델의 환경이 크게 변화했습니다. V7 및 향후 모델 출시가 이토록 오래 걸린 이유에 대해 자세히 알고 싶으시면 이 기사를 확인해 주세요.

모델 프롬프팅

이 모델은 다양한 스타일과 미학을 지원하지만, 다음과 같은 명확한 기본 프롬프트 템플릿을 제공합니다:

특별 태그, 이미지의 사실적 설명, 이미지의 스타일적 설명, 추가 콘텐츠 태그

특별 태그

score_X, style_cluster_x, source_X - 경고: V7 프롬프팅은 일관성이 부족할 수 있으니 이 문제를 해결하기 위해 V7.1 개발 중임을 참고하세요. 자세한 내용은 위 기사 참조.

이미지의 사실적 설명

스타일적 요소 없이 이미지에 묘사된 내용을 설명하세요. 다음 두 가지 권장 사항을 따르세요:

  • 세부 사항에 들어가기 전, 먼저 원하는 이미지를 간단한 문장으로 설명하세요.

  • 캐릭터를 언급할 때는 다음 패턴을 사용하세요:

<종류> <성별> <이름> from <출처>

예: "Anthro bunny female Lola Bunny from Space Jam"

이 모델은 많은 유명하고 소수의 캐릭터 및 시리즈를 인식할 수 있습니다.

이미지의 스타일적 설명

이미지 매체, 촬영 각도, 조명 등에 대한 정보입니다. (자세한 내용은 captioning Colab에서 추후 공개 예정)

태그

V7은 자연어 프롬프트와 태그를 결합하여 학습되었으며, 두 가지 모두를 이해할 수 있습니다. 대부분의 경우 일반 언어로 의도한 결과를 설명하는 것이 효과적이며, 주 프롬프트 뒤에 일부 태그를 추가하면 성능을 향상시킬 수 있습니다.

캡셔닝 Colab

V7 프롬프팅을 더 잘 이해하기 위해, V7 캡셔닝에 사용된 모든 모델을 포함한 캡셔닝 Colab을 공개할 예정입니다.

추후 공개 (다음 주)

지원되는 추론 설정

V7은 768px에서 1536px 범위의 해상도를 지원합니다. 추론 시 높은 해상도와 최소 30스텝을 사용하는 것을 권장합니다.

V6와의 주요 차이점

  • 특히 공간 정보 및 다중 캐릭터에 대한 프롬프트 이해력이 훨씬 향상됨

  • 배경 지원이 훨씬 강화됨 — 배경 생성 및 캐릭터와 배경의 결합이 모두 개선됨

  • 기본적으로 훨씬 높은 현실감 지원

  • 매우 어두운 이미지 및 매우 밝은 이미지를 생성할 수 있음

  • 해상도 최대 1536x1536 픽셀

  • 캐릭터 인식 능력 확장됨 (V6의 일부 캐릭터는 인식률이 낮아질 수 있으나, 전반적으로 지식 범위가 크게 확장됨)

특별한 감사의 말씀

  • 필요한 학습 자원 확보를 도와준 Iceman

  • AuraFlow 개발 및 정서적 지원을 해준 Simo RyuFAL.ai

  • 캡셔닝 컴퓨팅을 제공해 준 Runpod

  • 파트너로 협력해 준 Piclumen

  • 프로젝트 비용을 지원해 준 PSAI Server 구독자

  • 커뮤니티를 주의 깊게 관리해 준 PSAI Server 관리자

  • 이름을 공개하지 않았지만 V7 완성에 결정적인 도움을 준 많은 지원자들

기술적 세부 사항

이 모델은 3,000만 장 이상의 이미지 중에서 미학적으로 등급화되고 선택된 약 1,000만 장의 이미지로 학습되었습니다. 애니메이션/만화/퍼리/pony 데이터셋 간 비율은 약 1:1이며, 안전/의심스러운/명시적 등급도 1:1로 균형을 맞췄습니다. 모든 이미지는 고품질의 상세한 캡션과 태그가 부여되었습니다.

학습에는 모든 이미지의 캡션과 태그가 모두 사용되었으며, 아티스트 이름은 제거하고, Opt-in/Opt-out 프로그램에 따라 소스 데이터를 필터링했습니다. 부적절한 명시적 콘텐츠는 모두 제거되었습니다.

제한 사항

  • 이 모델은 텍스트 생성을 지원하지 않으며, 기본 AuraFlow에 비해 텍스트 생성 능력이 저하됨

  • 특별 태그(품질 태그 포함)의 성능이 V6에 비해 훨씬 낮음 — 예: score_9가 반드시 일부 프롬프트에서 더 나은 결과를 도출하지는 않음. 이 문제를 해결하기 위해 V7.1 개발 중

  • 작은 디테일, 특히 얼굴은 아트 스타일에 따라 심각하게 저하될 수 있음. 이는 오래된 VAE와 부족한 학습으로 인한 결과이며, V7.1에서 개선 중

LoRA 학습

LoRA 학습에는 SimpleTuner를 사용하고, 이 가이드를 따르는 것을 권장합니다.

Diffusers 지원, Comfy 워크플로우 및 학습 가이드는 곧 제공될 예정입니다.

다운로드 (실시간 ~10월 24일)

Diffusers

Safetensor

GGUF: TBD

Comfy Workflow: TBD

상용 API

우리는 독점 파트너인 FAL.ai를 통해 상용 API를 제공합니다.

라이선스

이 모델은 Pony 라이선스 하에 릴리스되었습니다.

요약하면, 귀하는 이 모델과 그 출력물을 상업적으로 사용할 수 있으며, 단 다음의 경우는 제외됩니다: 추론 서비스 또는 애플리케이션을 제공하는 경우, 연간 수익이 1백만 달러를 초과하는 기업인 경우, 전문 영상 제작에 사용하는 경우. 단, 첫-party 상용 API를 사용하는 경우는 이 제한이 적용되지 않습니다.

상업적 사용을 원하시면 [email protected]로 문의해 주세요.

상업적 추론에 대한 명시적 허가는 CivitAiHugging Face에 부여되었습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.