Pony V7 base
세부 정보
파일 다운로드
모델 설명
Pony V7은 AuraFlow 아키텍처를 기반으로 한 다재다능한 캐릭터 생성 모델입니다. 이 모델은 다양한 스타일과 종류(인류형, 앤트로, 페럴 등)를 지원하며, 자연어 프롬프트를 통해 캐릭터 간 상호작용을 처리합니다.
허구적
우선, 텍스트, 이미지, 음성, 그리고 곧 영상까지를 통해 AI 캐릭터를 생동감 있게 구현하는 다중 모달 플랫폼인 Fictional을 소개합니다. PonyV7, V6, Chroma, Seedream 4 및 기타 고급 모델을 기반으로 구동되는 Fictional은 자신의 삶을 살고 자신만의 이야기를 나누는 캐릭터를 탐색하고, 생성하며, 상호작용할 수 있게 해줍니다.
Fictional은 V7과 같은 모델 개발을 가능하게 하는 핵심 플랫폼이기도 합니다. 다중 모달 AI 캐릭터의 미래에 관심이 있다면, iOS 또는 Android에서 Fictional을 다운로드하여 우리의 미래를 함께 만들어 주세요!
iOS: https://apps.apple.com/us/app/fictional/id6739802573
Android: https://play.google.com/store/apps/details?id=ai.fictional.app
문의하기
Fictional 및 Pony 모델에 대해 궁금한 사항이 있다면 Discord 서버에 참여해 주세요.
중요 모델 정보
오래 기다리게 해드려 죄송합니다. V6 출시 이후 이미지 생성 모델의 환경이 크게 변화했습니다. V7 및 향후 모델 출시가 이토록 오래 걸린 이유에 대해 자세히 알고 싶으시면 이 기사를 확인해 주세요.
모델 프롬프팅
이 모델은 다양한 스타일과 미학을 지원하지만, 다음과 같은 명확한 기본 프롬프트 템플릿을 제공합니다:
특별 태그, 이미지의 사실적 설명, 이미지의 스타일적 설명, 추가 콘텐츠 태그
특별 태그
score_X, style_cluster_x, source_X - 경고: V7 프롬프팅은 일관성이 부족할 수 있으니 이 문제를 해결하기 위해 V7.1 개발 중임을 참고하세요. 자세한 내용은 위 기사 참조.
이미지의 사실적 설명
스타일적 요소 없이 이미지에 묘사된 내용을 설명하세요. 다음 두 가지 권장 사항을 따르세요:
세부 사항에 들어가기 전, 먼저 원하는 이미지를 간단한 문장으로 설명하세요.
캐릭터를 언급할 때는 다음 패턴을 사용하세요:
<종류> <성별> <이름> from <출처>
예: "Anthro bunny female Lola Bunny from Space Jam"
이 모델은 많은 유명하고 소수의 캐릭터 및 시리즈를 인식할 수 있습니다.
이미지의 스타일적 설명
이미지 매체, 촬영 각도, 조명 등에 대한 정보입니다. (자세한 내용은 captioning Colab에서 추후 공개 예정)
태그
V7은 자연어 프롬프트와 태그를 결합하여 학습되었으며, 두 가지 모두를 이해할 수 있습니다. 대부분의 경우 일반 언어로 의도한 결과를 설명하는 것이 효과적이며, 주 프롬프트 뒤에 일부 태그를 추가하면 성능을 향상시킬 수 있습니다.
캡셔닝 Colab
V7 프롬프팅을 더 잘 이해하기 위해, V7 캡셔닝에 사용된 모든 모델을 포함한 캡셔닝 Colab을 공개할 예정입니다.
추후 공개 (다음 주)
지원되는 추론 설정
V7은 768px에서 1536px 범위의 해상도를 지원합니다. 추론 시 높은 해상도와 최소 30스텝을 사용하는 것을 권장합니다.
V6와의 주요 차이점
특히 공간 정보 및 다중 캐릭터에 대한 프롬프트 이해력이 훨씬 향상됨
배경 지원이 훨씬 강화됨 — 배경 생성 및 캐릭터와 배경의 결합이 모두 개선됨
기본적으로 훨씬 높은 현실감 지원
매우 어두운 이미지 및 매우 밝은 이미지를 생성할 수 있음
해상도 최대 1536x1536 픽셀
캐릭터 인식 능력 확장됨 (V6의 일부 캐릭터는 인식률이 낮아질 수 있으나, 전반적으로 지식 범위가 크게 확장됨)
특별한 감사의 말씀
필요한 학습 자원 확보를 도와준 Iceman
캡셔닝 컴퓨팅을 제공해 준 Runpod
파트너로 협력해 준 Piclumen
프로젝트 비용을 지원해 준 PSAI Server 구독자
커뮤니티를 주의 깊게 관리해 준 PSAI Server 관리자
이름을 공개하지 않았지만 V7 완성에 결정적인 도움을 준 많은 지원자들
기술적 세부 사항
이 모델은 3,000만 장 이상의 이미지 중에서 미학적으로 등급화되고 선택된 약 1,000만 장의 이미지로 학습되었습니다. 애니메이션/만화/퍼리/pony 데이터셋 간 비율은 약 1:1이며, 안전/의심스러운/명시적 등급도 1:1로 균형을 맞췄습니다. 모든 이미지는 고품질의 상세한 캡션과 태그가 부여되었습니다.
학습에는 모든 이미지의 캡션과 태그가 모두 사용되었으며, 아티스트 이름은 제거하고, Opt-in/Opt-out 프로그램에 따라 소스 데이터를 필터링했습니다. 부적절한 명시적 콘텐츠는 모두 제거되었습니다.
제한 사항
이 모델은 텍스트 생성을 지원하지 않으며, 기본 AuraFlow에 비해 텍스트 생성 능력이 저하됨
특별 태그(품질 태그 포함)의 성능이 V6에 비해 훨씬 낮음 — 예: score_9가 반드시 일부 프롬프트에서 더 나은 결과를 도출하지는 않음. 이 문제를 해결하기 위해 V7.1 개발 중
작은 디테일, 특히 얼굴은 아트 스타일에 따라 심각하게 저하될 수 있음. 이는 오래된 VAE와 부족한 학습으로 인한 결과이며, V7.1에서 개선 중
LoRA 학습
LoRA 학습에는 SimpleTuner를 사용하고, 이 가이드를 따르는 것을 권장합니다.
Diffusers 지원, Comfy 워크플로우 및 학습 가이드는 곧 제공될 예정입니다.
다운로드 (실시간 ~10월 24일)
Safetensor
GGUF: TBD
Comfy Workflow: TBD
상용 API
우리는 독점 파트너인 FAL.ai를 통해 상용 API를 제공합니다.
라이선스
이 모델은 Pony 라이선스 하에 릴리스되었습니다.
요약하면, 귀하는 이 모델과 그 출력물을 상업적으로 사용할 수 있으며, 단 다음의 경우는 제외됩니다: 추론 서비스 또는 애플리케이션을 제공하는 경우, 연간 수익이 1백만 달러를 초과하는 기업인 경우, 전문 영상 제작에 사용하는 경우. 단, 첫-party 상용 API를 사용하는 경우는 이 제한이 적용되지 않습니다.
상업적 사용을 원하시면 [email protected]로 문의해 주세요.
상업적 추론에 대한 명시적 허가는 CivitAi 및 Hugging Face에 부여되었습니다.





















