FluffyRock
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
플러피락의 플럭스 기반 후속 모델이 현재 학습 중입니다. 초기 체크포인트들은 무제한, 완전한 자연어 모델 영역에서 많은 가능성을 보여주고 있습니다.
Chroma
[ e233-terminal-snr-vpred-e206는 원래 vpred 학습 라인의 마지막 모델입니다. "완전성"을 위해 여기에 배치했습니다. 이 vpred 모델에는 더 최근의 몇 가지 체크포인트가 있으며, 일부 트레이닝 설정이 달라졌습니다(어떤 변경 사항이 있었는지는 기억이 나지 않습니다). Civitai와 협업이 가능하다면 나중에 e257-terminal-snr-vpred-e11을 업로드해보겠습니다. ]
[ 몇 가지 더 최근의 FR 모델, 특히 "minsnr" 라인들이 있지만, 이들은 다소 "디프라이드"된 느낌이 있고 일반 사용에는 권장하지 않습니다. Lodestone은 이를 병합용으로 사용할 것을 제안했습니다. 언제나 그렇듯, 이 모든 모델은 HF 저장소에서 확인할 수 있습니다. ]
이곳은 몇 가지 일반적이고 인기 있는, 또는 최근의 플러피락 모델의 충분히 공식적인 Civitai 업로드입니다. 이 작업은 다른 포스트와 모델들이 원본 모델을 정확히 참조할 수 있도록 하기 위한 것입니다.
플러피락은 퓨리(동물형 캐릭터) 중심 모델로, 다양한 개념과 스타일에 대한 광범위한 이해를 가지고 있으며, 최대 1088x1088 해상도까지 샘플링할 수 있습니다. 여러 가지 실험이 병렬로 진행되면서 여러 모델 브랜치가 동시에 학습되고 있으며, 각 브랜치는 다른 브랜치와 최소한 약간은 다른 결과물을 생성합니다.
여러 다른 방법을 사용하는 여러 모델 브랜치가 존재합니다.
브랜치별 차이점에 대한 표는 업데이트되는 대로 추가될 예정입니다.
여기 설명은 불완전합니다. 나중에 개선될 예정입니다.
현재 권장 버전:
개인적으로 vpred 모델 라인은 매우 훌륭해지고 있습니다. 작동시키려면 추가 설정이 필요하므로 아래를 참조하세요.
최근의 terminal-snr 에포크는 이미 상당히 성숙했으며, 각 체크포인트 간에는 저빈도 태그에 대한 개념 이해가 점차 향상되는 것 외에는 큰 변화가 없습니다.
이는 주관적인 선호도에 따라 달라지므로, 가장 마음에 드는 것을 선택하거나 다른 모델과 혼합해도 좋습니다. 원하는 대로 하세요. :V
프롬프트:
e621 태그를 언더스코어 없이 콤마로 구분하여 어떤 순서로든 사용하세요.
아티스트 태그는 일반적으로 "(artist)"가 붙는 태그에도 "(artist)" 없이 "by 이름" 형식을 사용합니다.
3m 이전 모델은 메타 태그를 이해하지 못합니다. 3m 이후 모델은 메타 태그를 이해할 수 있을 수도 있지만, 아직 명시적으로 테스트하지는 않았습니다.
기본 SD1.5의 자연어 이해 능력은 대부분 절단되었습니다. 현재 몇 가지 프로젝트가 기본 SD와 유사하지만 퓨리 아트에 더 특화된 자연어 이해를 재현하기 위해 진행 중입니다. 그러나 이 체크포인트들은 아직 일반 사용에는 미숙하므로, 테스트용으로 Discord 스레드와 HF에서 확인할 수 있습니다.
여기서 보이는 대부분의 예시는 최소한의 부정 프롬프트 또는 부정 프롬프트 없이 구성되어 있습니다.
플러피락 vpred 모델을 사용하려면 추가 설정이 필요합니다:
제공된 구성 파일을 사용하세요.
CFG 리스케일을 사용해야 합니다.
A1111(및 아마도 Vlad 포크)에서는 CFG_Rescale_webui 확장 프로그램을 사용하세요. 또는 A1111에서 CFG 리스케일 PR을 가져오세요(이미 상위 브랜치에 병합되지 않았다면). 향후 이 기능이 A1111의 표준 기능이 되길 기대합니다.
Comfy UI에서 이를 수행하는 방법도 존재하지만, 확인 후 여기에 정보를 추가하겠습니다.
Civitai 업로드 관련:
시간이 지남에 따라 더 많은 버전이 추가될 예정입니다. 특정 체크포인트를 여기에 업로드해 달라고 필요하시면 댓글을 남겨주세요. 제가 시간과 샘플 이미지를 만들 수 있을 때 더 최근 모델들도 여기에 업로드할 예정입니다. 원본 Hugging Face 저장소는 항상 최신 버전을 보유합니다.
저는 이 모델들을 여기에 업로드하고 있습니다. 우리 팀이 작고 캐주얼하기 때문에, 제게 가장 많은 대역폭과 시간이 남아 있었기 때문입니다. Lodestone Rock이 이 모델들을 학습했습니다. 다른 많은 사람들이 다양한 방식으로 도움을 주었습니다.
Civitai의 제한 사항(버전 문자열 길이가 매우 짧음)과 사이트 작동 방식(다운로드 시 원본 업로드 파일명을 사용하지 않음)으로 인해, 체크포인트 파일명은 HuggingFace의 원본과 다릅니다. 저는 서로 다른 학습 브랜치 간에 고유성을 유지하면서 원본과 충분히 가까워 식별할 수 있도록 노력했습니다. 각 체크포인트의 전체 원본 파일명은 사이드 패널의 "이 모델에 대해"에 나와 있습니다.
여기 각 모델 라인에 대한 간단 정리.
1088-megares: 최대 1088px까지 고해상도 데이터셋으로 학습되었습니다.
e27에서 수렴이 멈췄고, 다른 라인으로 작업이 이전되어 종료된 것으로 간주됩니다.
1088-megares-offset-noise: 위와 동일하나, 오프셋 노이즈를 추가로 적용한 에포크를 더했습니다. 이미지의 어두운 부분과 밝은 부분의 역동적 조명 범위를 향상시키는 데 도움이 됩니다. 즉, 더 어두운 어두움을 구현할 수 있습니다.
e27에서 수렴이 멈췄고, 다른 라인으로 작업이 이전되어 종료된 것으로 간주됩니다.
1088-megares-offset-noise-3M: 위와 동일하나, 300만 장 이상의 이미지 데이터셋을 사용합니다. 더 많은 개념을 이해할 수 있습니다.
더 이상 추가 체크포인트를 학습하지 않고, 다른 라인에 더 많은 시간을 할애하는 것이 더 낫다고 판단했습니다.
1088-megares-terminal-snr: 오프셋 노이즈와 유사한 목표를 가지고 있지만, 기술적으로는 다른 방법입니다. 노이즈 스케줄을 재조정하여 터미널 SNR을 0으로 강제합니다. 이는 아래의 vpred 포크에서 수행된 추가 변경 사항과 통합됩니다.
1088-megares-terminal-snr-vpred: 에포크 20-21에서 1088-megares-terminal-snr에서 포크되었습니다.
이 모델은 v-예측을 사용하여 Stable Diffusion 1.5의 열악한 노이즈 스케줄링과 샘플 단계를 수정하는 실험용 모델입니다. 이를 네 가지 방식으로 수행합니다.
노이즈 스케줄을 재조정하여 터미널 SNR을 0으로 강제합니다.
v-예측으로 모델을 학습합니다.
샘플러를 항상 마지막 타임스텝에서 시작하도록 변경합니다.
분류기-free 가이던스를 재조정하여 과노출을 방지합니다(CFG 리스케일).
이 수정 사항은 논문 "Common Diffusion Noise Schedules and Sample Steps are Flawed"에 기반합니다.
이 모델에 대한 실험은 다음과 같은 다양한 개선 가능성을 보여주었습니다.
프롬프트 이해력 향상
더 정확한 색상 표현
크게 향상된 대비
플러피락 vpred 모델을 사용하려면 추가 설정이 필요합니다:
구성 파일과 CFG 리스케일이 필요합니다. A1111(및 아마도 Vlad 포크)에서는 CFG_Rescale_webui 확장 프로그램을 사용하거나, A1111에서 CFG 리스케일 PR을 가져오세요(이미 상위 브랜치에 병합되지 않았다면).
e6laion: 또 다른 실험입니다.
다른 모든 라인과 분리된 별개의 모델입니다.
e6, laion, booru 데이터셋으로 학습되었습니다. 기본 SD1.5가 잃어버린 내용을 다시 배우고 있으며, vpred도 사용합니다. 여전히 실험적인 단계이며, 아직 에포크 수가 많지 않습니다. 아직 여기에 업로드되지 않았습니다. HuggingFace 저장소에서 다운로드 가능합니다. 결과가 불안정할 수 있습니다.
PolyFur: 더 최근의 프로젝트로, e6laion과 유사하지만 추가 데이터셋은 인간이 수작업으로 선별했으며, 자연어 프롬프트를 재도입하되 미적 품질 향상에 초점을 맞추고 있습니다.
다른 모든 라인과 분리된 별개의 모델입니다.
매 에포크마다 개선이 보이며, 8월 초에 여기에 출시될 가능성이 있습니다. 역시 vpred를 사용합니다. 현재 HuggingFace 저장소에서 다운로드 가능합니다.
SDXLVAE: 1088-megares-offset-noise-3M의 실험용 포크로, SDXL VAE를 사용합니다.
자동완성:
태그 자동완성 파일 - 현재 이 파일은 pre-3M 데이터셋만 포함합니다. 새 파일을 만들고 있지만, 35,000개의 충돌하는 태그를 수동으로 확인하고 수정해야 합니다.
두 개의 에포크 번호?
첫 번째 숫자는 학습 시작부터의 연속된 에포크 수입니다.
두 번째 숫자는 해당 라인이 포크된 이후의 에포크 수입니다.
예: fluffyrock-576-704-832-960-1088-lion-low-lr-e101-terminal-snr-vpred-e74
1088 멀티해상도 학습의 101번째 체크포인트입니다. 총 에포크 수입니다.
terminal-snr가 포크된 이후의 74번째 체크포인트이며, tsnr에서 수행된 에포크 수입니다. (vpred는 아마도 e20-e21에서 포크되었습니다.)
문제 해결:
출력이 나쁨:
512x512 해상도로 샘플링하지 마세요. 768 이상을 사용하세요. 1088을 초과하면 일반적인 SD1.x 고해상도 이상 현상이 발생할 수 있습니다. 고해상도 수정(High-res-fix) 및 유사한 방법은 2k 이상 해상도를 쉽게 달성하는 데 잘 작동합니다.
일부 예술 스타일을 프롬프트에 포함하세요. "by [e6 아티스트 태그(언더스코어 없음)]" 형식을 사용하세요. 더 나은 결과를 위해 여러 개의 스타일을 프롬프트에 포함하세요. A1111의 프롬프트 편집 기능을 사용하면 고유한 스타일을 만들기에 매우 효과적입니다.
일부 태그의 개념은 모델이 알고 있지만, 샘플 수가 너무 적었거나 지나치게 편향된 샘플이 많았습니다. 해당 개념을 선호하는 방향으로 커스텀 LoRA를 학습하는 것이 일반적으로 좋은 방법입니다.
VPred 문제 해결:
출력이 단순한 노이즈/구름임: 구성 파일 누락.
출력이 너무 어두움: CFG 리스케일을 높이세요. 일반적으로 0.7-0.9 범위에서 가장 잘 작동합니다.
일부 샘플러는 CFG 리스케일 지원이 아직 완전하지 않아 제대로 작동하지 않을 수 있습니다. 자세한 정보는 Discord 스레드를 참조하세요.
LoRA 학습:
과거에는 e27이 다른 FR 모델 브랜치로의 이식성이 더 높아 학습 대상으로 권장되었습니다. 그러나 이 정보는 오래되었습니다.
저의 경험에 따르면, 최근 FR 라인에서 학습한 LoRA는 다른 모델 라인 간에 우수한 이식성을 보여줍니다. 그러나 샘플링하려는 모델 자체를 대상으로 학습하는 것이 가장 좋은 결과를 낼 가능성이 높습니다.
노이즈-오프셋 모델은 좋은 결과를 얻기 위해 노이즈 오프셋 > 0으로 학습해야 할 수 있지만, 이러한 LoRA는 노이즈 오프셋을 사용하지 않는 다른 모델에서 잘 작동하지 않을 수 있습니다. 먼저 0으로 시작해 결과를 확인하세요. 오프셋-노이즈 모델은 이미 오래된 모델이므로, 더 최근의 모델 라인을 고려하는 것이 좋습니다.
터미널-SNR(비-vpred) 모델은 특별한 설정이 필요하지 않습니다.
vpred는 v_파라미터화를 활성화하여 학습해야 합니다. kohya_ss는 v1에서 이를 사용할 때 경고를 내겠지만, 무시하세요. 누구도 SD1.5를 v-예측으로 학습할 것이라고 예상하지 않았습니다.
비-vpred FR 모델에서 학습한 LoRA는 일반적으로 작동할 것입니다.
도움이 필요하면 Discord에서 문의하세요.
링크 및 자료:
Hugging Face 저장소 모든 모델 라인의 모든 버전을 포함합니다. 저장소 전체를 git clone하려면 1.5TB 이상의 디스크 공간이 필요하므로 주의하세요.
퓨리 디퓨전 디스코드 서버 및 그 안의 FR 스레드
LodestoneRock의 패트리온 학습 비용을 지원해 주세요.
라이선스: WTFPL

Civitai의 사이트 내 생성 기능이 작동하지 않기 때문에(적어도 이 모델들에 대해서는), 귀찮은 "생성" 버튼을 비활성화하기 위해 상용 사용 권한을 잘못 설정했습니다. 생성 서비스에서 모델을 사용하셔도 괜찮지만, 제대로 작동했으면 좋겠네요. :V
결국 vpred 모델을 제외하고는 현재 작동하는 것으로 나타났습니다.




