Pony V7 base

세부 정보

파일 다운로드

모델 설명

Pony V7은 AuraFlow 아키텍처를 기반으로 한 다재다능한 캐릭터 생성 모델입니다. 이 모델은 다양한 스타일과 종족 유형(인간형, 앤트로, 페럴 등)을 지원하며, 자연어 프롬프트를 통해 캐릭터 간 상호작용을 처리합니다.

Fictional

먼저, 텍스트, 이미지, 음성, 그리고 곧 추가될 영상 등을 통해 AI 캐릭터를 생동감 있게 구현하는 우리의 멀티모달 플랫폼인 Fictional을 소개합니다. PonyV7, V6, Chroma, Seedream 4 및 기타 고급 모델을 기반으로 구동되는 Fictional은 자신만의 삶과 이야기를 살아가는 캐릭터들을 발견하고, 생성하며, 상호작용할 수 있게 해줍니다.

Fictional은 V7과 같은 모델의 개발을 가능하게 하는 핵심 플랫폼이기도 합니다. 멀티모달 AI 캐릭터의 미래에 흥미를 느끼신다면, iOS 또는 Android에서 Fictional을 다운로드하여 우리의 미래를 함께 만들어 주세요!

iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app

문의하기

Fictional 및 Pony 모델에 대한 질문이 있으시면 Discord 서버에 참여해 주세요.

중요 모델 정보

오랫동안 기다리게 해드려 죄송합니다. V6 출시 이후 이미지 생성 모델의 환경은 급격히 변화했습니다. V7 출시 및 향후 모델 출시까지 시간이 오래 걸린 이유에 대해 자세히 알고 싶으시면 이 기사를 확인해 주세요.

모델 프롬프팅

이 모델은 다양한 스타일과 미학을 지원하며, 다음과 같은 의견이 반영된 기본 프롬프트 템플릿을 제공합니다:

special tags, factual description of image, stylistic description of image, additional content tags

특수 태그

score_X, style_cluster_x, source_X - 경고: V7 프롬프팅은 일관성이 떨어질 수 있으므로, 이 문제를 해결하기 위해 V7.1 개발 중임을 확인하기 위해 위 기사를 참고해 주세요.

이미지의 사실적 설명

스타일적 요소 없이 이미지에 표현된 내용을 설명합니다. 두 가지 권장 사항:

  • 세부 사항을 나열하기 전, 먼저 원하는 이미지를 한 문장으로 요약하세요.

  • 캐릭터를 언급할 때는 다음 패턴을 사용하세요:

<종족> <성별> <이름> from <출처>

예: "Anthro bunny female Lola Bunny from Space Jam".

이 모델은 다양한 유명 및 소수 캐릭터와 시리즈를 인식할 수 있습니다.

이미지의 스타일적 설명

이미지의 매체, 촬영 각도, 조명 등에 대한 정보입니다(자세한 내용은 captioning Colab에서 별도 공개 예정).

태그

V7은 자연어 프롬프트와 태그를 혼합하여 학습되었으며, 두 가지 모두 이해할 수 있습니다. 따라서 일반적인 언어로 원하는 결과를 설명하는 것이 대부분의 경우 효과적이며, 메인 프롬프트 뒤에 태그를 추가하여 강조할 수 있습니다.

Captioning Colab

V7 프롬프팅을 더 잘 이해하기 위해, V7 캡셔닝에 사용된 모든 모델을 포함한 captioning Colab을 출시합니다.

추후 공개 (다음 주)

지원되는 추론 설정

V7은 768px에서 1536px 범위의 해상도를 지원합니다. 추론 시 높은 해상도를 사용하고 최소 30단계 이상을 권장합니다.

V6 대비 주요 개선점

  • 프롬프트에 대한 이해력 향상(특히 공간 정보 및 다중 캐릭터 처리)

  • 배경 지원 강화(배경 생성 및 캐릭터와 배경의 통합)

  • 기본적으로 더 뛰어난 사실성 구현

  • 매우 어두운 이미지와 매우 밝은 이미지 생성 가능

  • 최대 1536x1536 픽셀 해상도 지원

  • 캐릭터 인식 범위 확장(V6에서 인식되던 일부 캐릭터는 인식률이 낮아질 수 있으나, 전반적으로 지식 범위가 크게 확장됨)

특별한 감사

  • 필요한 학습 자원 확보에 도움을 준 Iceman

  • AuraFlow 개발 및 정서적 지지를 제공한 Simo RyuFAL.ai

  • 캡셔닝 컴퓨팅을 제공해 준 Runpod

  • 파트너로 협력해 준 Piclumen

  • GGUF 지원에 도움을 준 City96

  • AuraFlow 통합 작업을 지원한 diffusers

  • 프로젝트 비용을 지원해 준 PSAI Server 구독자

  • 커뮤니티를 관리하고 주의 깊게 감시해 준 PSAI Server 관리자

  • 익명을 선택했지만 V7 완성에 결정적인 도움을 준 수많은 지원자들

기술적 세부 사항

이 모델은 3천만 장 이상의 이미지 중에서 미적 순위가 매겨진 약 1천만 장의 이미지로 학습되었습니다. 애니메이션/만화/퓨리/포니 데이터셋 간 비율은 1:1이며, 안전/의심스러운/명시적 등급 비율도 1:1입니다. 모든 이미지는 고품질의 상세한 캡션과 태그가 부여되었습니다.

모든 이미지는 캡션과 태그를 함께 사용하여 학습되었으며, 아티스트 이름은 제거되었고, Opt-in/Opt-out 프로그램에 따라 소스 데이터가 필터링되었습니다. 부적절한 명시적 콘텐츠는 모두 제거되었습니다.

제한 사항

  • 이 모델은 텍스트 생성을 지원하지 않으며, 기본 AuraFlow에 비해 텍스트 생성 능력이 저하되었습니다.

  • 특수 태그(품질 태그 포함)는 V6에 비해 성능이 훨씬 낮습니다. 예를 들어 score_9가 항상 더 나은 결과를 보장하지는 않습니다. 이 문제를 해결하기 위해 V7.1을 개발 중입니다.

  • 작은 디테일, 특히 얼굴은 아트 스타일에 따라 크게 저하될 수 있으며, 이는 오래된 VAE와 부족한 학습 데이터의 조합으로 인한 것으로, V7.1에서 개선하려고 합니다.

LoRA 학습

LoRA 학습에는 SimpleTuner를 사용하고, 이 가이드를 따르는 것을 권장합니다.

diffusers 지원, Comfy 워크플로우 및 학습 가이드는 준비 중입니다.

다운로드

Diffusers

Safetensor

GGUF

Comfy 워크플로우: 준비 중

상용 API

우리는 독점 파트너인 FAL.ai를 통해 상용 API를 제공합니다.

라이선스

이 모델은 Pony 라이선스 하에 라이선스됩니다.

요약하면, 귀하는 이 모델과 그 출력물을 상업적으로 사용할 수 있으나, 추론 서비스 또는 애플리케이션을 제공하거나, 연간 수익이 1백만 달러를 초과하는 기업이거나, 전문 영상 제작에 사용하는 경우는 제외됩니다. 이 제한은 제1자 상용 API를 사용하는 경우 적용되지 않습니다.

상업적 사용을 원하신다면, [email protected]로 문의해 주세요.

상업적 추론에 대한 명시적 허가는 CivitAiHugging Face에 부여되었습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.