Simulacrum V3-V38 [F1D/F1DD/F1D2] [SFW/NSFW]

세부 정보

파일 다운로드

모델 설명

안전 버전 프롬프팅:

  • steps: 50

  • cfg 1, distilled cfg 3.5-5

  • euler < simple/normal

  • 3의 법칙을 사용하여 평범한 영어로 프롬프트를 작성하고, 적절하다고 판단되는 곳 어디에든 booru 태그를 추가하세요. 이 태그들은 자연어처럼 작동하지 않습니다.

  • 방 안의 테이블 위에 사과 하나, 둘, 셋.

  • 방 안의 테이블 위에 사과. 집 안의 방. 도시 안의 집. 국가 안의 도시.

  • 이 방식을 고수하면 자연어로는 충분히 잘 작동합니다.

  • 예시 프롬프트 1;

safe, anime,

a girl sitting on a giant apple in a room

safe, anime,

a sticker of a sitting girl on the side of a giant apple in a room

---

safe, anime,

a sticker of a frog costume wearing girl stuck to the side of a 3d apple on top of a table, apple sticker, purple hair, text in sticker "wibbit!"

an apple being invaded by aliens on a table in a room. a room in a house in a city. a city in a state in a country.

(an apple being invaded by aliens:1.2) on a table in a room. (a room made of jello:1.3) in a wool house in a city. (a wool city:1.3) in a state in a country.

safe,

a sticker of a frog costume wearing girl stuck to the side of a 3d apple on top of a table, apple sticker, purple hair, text in sticker "wibbit!",

(an apple being invaded by aliens:1.2) on a table in a room. (a room made of jello:1.3) in a wool house in a city. (a wool city:1.3) in a state in a country.

보시다시피, 3의 법칙은 약 5단계의 분리까지 적용되지만, 그 이후로는 붕괴되어 겹쳐지기 시작합니다. 이것은 표준적인 AI입니다.

NSFW 버전에 너무 매달리지 마세요~!:

  • 저는 50,000개의 고품질, 고정밀, 사실적, 3D 및 애니메이션 이미지를 사용하여 전체 NSFW 재학습을 시작하고 있습니다. 각 카테고리마다 약 5,000개씩입니다. 이 두 패키지는 기름과 물처럼 서로 섞이지 않지만, 촉매 없이도 혼합할 수 있어야 합니다.

  • 버전 4의 최종 단계를 시작하며, 향후 모든 학습은 기존 스타일과 함께 새로운 태깅 스타일을 사용하여 특별히 태그 처리할 것입니다. 이 방식은 장면 내에서 오프셋 연관을 위한 개별 태깅 오프셋 감지를 포함합니다.

    • 상단-왼쪽, 상단-중앙, 상단-오른쪽,

    • 중앙-왼쪽, 중앙-중앙, 중앙-오른쪽

    • 하단-왼쪽, 하단-중앙, 하단-오른쪽

      • 이러한 태그는 표준 booru 개념을 피하도록 선택되었으며, T5 내에서 장면 내 오프셋 연관에 중복을 가지도록 설계되었습니다.
  • 크기 태그

    • 전체 프레임

    • 적당한

    • 최소한의

      • 이 세 가지 태그는 오프셋 태그와 결합되어 이미지 내에서 일관성을 확보하는 데 사용됩니다. 일부는 booru 태그를 의도적으로 현재 학습에 스며들게 하기 위해 사용됩니다.
  • 미학 태그

    • 역겨움 < 5%

    • 매우 불쾌함 < 20%

    • 불쾌함 < 35%

    • < 50%

    • 미학적 < 65%

    • 매우 미학적 < 85%

  • 정제

    • 단색

    • 회색조

    • 유효하지 않은 이미지

  • 제거된 태그

    "tagme",
    "bad pixiv id",
    "bad source",
    "bad id",
    "bad tag",
    "bad translation",
    "untranslated*",
    "translation*",
    "larger resolution available",
    "source request",
    "*commentary*",
    "video",
    "animated",
    "animated gif",
    "animated webm",
    "protected link",
    "paid reward available",
    "audible music",
    "sound",
    "60+fps",
    "artist request",
    "collaboration request",
    "original",
    "girl on top",
    "boy on top",
    
    • 이 태그들은 유용하지 않습니다. 제 태깅 시스템은 태그 제거 및 포함/제거를 위한 와일드카드 기능을 제공합니다.
  • 템플릿:

    "{rating}",
    "{core}",
    "{artist}",
    "{characters}",
    "{character_count}",
    "{gender}",
    "{species}",
    "{series}",
    "{photograph}",
    "{substitute}",
    "{general}",
    "{unknown}",
    "{metadata}",
    "{aesthetic}"
    
    • 이 템플릿은 다음 사이트의 태그 완전 결합 목록을 기반으로 합니다;

      • safebooru, gelbooru, danbooru, e621, rule34xxx, rule34paheal, rule34us
    • 모든 일치하지 않는 별명은 단일 태그로 정규화됩니다.

    • 이러한 목록에 없는 태그는 자동으로 "unknown"으로 이동됩니다.

    • 모든 캡션은 자동으로 위의 모든 태그 위에 배치됩니다.

  • 이 새로운 학습에는 SafeFixers Epoch40을 기본으로 사용할 것입니다.

  • Safe Fixers는 우수한 컨텍스트 인식과 시스템 제어력을 보여주며, 2대의 4090 GPU로 거의 2주간 천천히 학습되었습니다. 이는 원하는 방향으로 플럭스의 기초에 대한 진정한 진보에 더 가깝습니다.

  • 반면, 섹스 패키지는 반대의 특성을 보였습니다. 높은 파괴력, 나쁜 혼합, 나쁜 LoRA 연관성, 그리고 낮은 컨텍스트 제어력. 컨텍스트를 유지하려는 목표 때문에 결과는 기초적인 "SAFE" 방향으로 전환되어야 하며, 앞으로는 NSFW 이미지를 사용하여 안전 버전을 미세 조정할 것입니다.

  • 주요 차이점;

    • 섹스 패키지는 A100을 사용하여 빠르게 학습되었으며, 에포크 5까지 학습되었고, 평균 15,000개의 소스 이미지를 사용했습니다. 검토 결과, 이미지 품질이 극심하게 불안정했습니다. 단색, 회색조, 선화, 일부 실제 AI 독소, 긴 만화, 그리고 학습 프로그램이 $100의 사비를 소모하기 전까지 발견되지 않았던 결함 있는 이미지들이 포함되어 있었습니다.

    • Safe Fixers는 15,000개의 고품질, 고점수, 인간이 제작한(대부분) 애니메이션 이미지를 사용하여 에포크 40까지 학습되었습니다. 품질은 뛰어난 컨텍스트 인식과 제어력을 보여주었으며, 개념 혼합 시 이 점은 결코 과소평가될 수 없습니다.

    • 심지어 에포크 5 단계에서 섹스 패키지는 이미 학습을 계속하기에 너무 파괴적이었지만, Safe Fixers는 에포크 40까지 견고하게 유지되었습니다.

  • 교훈:

    • 이 두 패키지를 작업하면서 저는 매우 중요한 요소를 배웠습니다;

      1. 이미지 크기는 모든 장치에서 신뢰할 수 있게 버킷화할 수 없습니다.

        • 리사이징을 위한 소프트웨어를 개발했습니다.

        • 너무 높거나 너무 넓은 이미지를 정제했습니다.

        • 이미지 폭탄과 손상된 다운로드를 식별하기 위한 손상, 유효성, 정상성 검사를 수행했습니다. 이들은 학습 프로그램이 $100의 비용을 소비하기 전까지 무시되었을 것입니다.

      2. 태그 순서는 중요합니다. 시스템 자체는 특정 순서로 정렬된 태그를 통해 특정 장면을 더 잘 이해합니다.

        • 앞으로 이 순서가 특정 패러다임에 맞도록 내부 태깅 소프트웨어를 사용자 정의했습니다.

        • 모든 태그에 미학 및 품질을 추가로 태깅하기 시작했습니다.

          • 매우 미학적 - 0.9^

          • 미학적 - 0.6 ^

          • 불쾌함

          • 매우 불쾌함

        • 자동 NSFW 감지 기능 도입.

최고 품질의 첫 10,000장 이미지 미세 조정 시작 - 학습률 0.000033:

  • 이것은 버전 4의 직접적인 코어 학습의 시작을 의미합니다. 즉, 0.000033은 버전 5가 출시될 때까지 버전 4의 표준이 됩니다. CLIP_L의 TE 학습률의 1/3인 0.000000333을 사용할 것입니다.

  • 저는 현재까지 본 바中最고 수준의 기본 품질을 지닌 주로 AI 생성 이미지로 구성된 매우 고품질 패키지를 받았습니다.

  • 현재 상태에서, 개선할 수 있는 정보가 매우 많습니다. 토큰이 특정 지점을 통과할 때 거의 빈 캐릭터, 단색, 회색조가 나타나는 것을 목격했습니다.

  • 수선, 해부학 수정, 포함 요소가 매우 견고하게 구축되었으므로, 지금은 모델이 시작될 때 계획했던 전문 수준의 포즈와 코어 모델을 정비할 때입니다. 그러나 플럭스가 이 분야에서 심각한 저항을 보였고, 원하는 컨텍스트 지점에 도달하기까지 시간이 오래 걸렸습니다.

  • 이 버전은 원하는 대부분의 컨텍스트 마커를 달성했으므로, 오늘부터 LoRA 스택은 하나의 엔티티로 병합되었습니다. 혼합 버전입니다.

  • 이 모델의 견고성은 매우 높습니다. 마치 초등학교를 마치고 이제 진정한 학문에 들어가는 시점입니다. 이제 고등학교에 진학하여 큰 남자들의 연관성과 큰 숫자들을 배우게 될 것입니다.

세 모델 마이크 드랍 - 2024년 11월 2일 오전 9:54 (GMT-7):

  • 세 개의 새로운 모델이 제공됩니다;

    • 각 모델은 주로 Flux1D용으로 설계되었으며, Flux1D-DeDistilled용이 아닙니다. DeDistilled에서 특정 분기점 이후 결과가 매우 나빴습니다. 주 모델은 Flux1D로 돌아왔으며, 코어가 너무 크게 진화하여 Flux1D가 실제로 해를 끼칠 때까지 유지됩니다. 그때는 이름을 변경해야 할 것입니다.

    • 이 모델들을 학습하지 마세요. 아직 일관된 코어를 결정하지 않았으므로, 지금은 그냥 사용해보세요.

  • safe - 강하게 학습된 안전 태그

    • 더 많은 데모 이미지: https://civitai.com/articles/8401/simulacrum-v38-safe-e30-teaser-2-electric-boogaloo

    • 강하게 학습된 안전 패키지는 현재 80%의 힘으로 작동 중이며, 섹스 패키지는 제외되었습니다.

    • 결과에 매우 만족합니다. 일주일 동안 천천히 학습되었습니다.

    • 전체 안전 패키지는 예술 스타일, 아티스트, 그리고 다양한 기대되고 즐거운 요소를 기반으로 하며, 절대 성적 내용을 위한 것이 아닙니다.

    • 캐릭터를 포즈 설정, 제어, 이동 등 할 수 있습니다.

    • 예술, 만화, 신문 기사, 인페인팅 등에 이상적입니다.

  • explicit - 강하게 학습된 노출 태그

    • 안전 패키지의 일부를 매우 낮은 강도로 포함하여, 성적 포즈와 성행위에 완전히 전념했습니다. 목표는 성의 핵심 요소를 도입하는 것이었으나, 이는 잘 받아들여지지 않았을 가능성이 높아 재학습이 필요할 것입니다.

    • 그러나 현재는 즐겁게 사용할 수 있습니다.

    • 제가 생성한 이미지를 주의 깊게 보면, Simulacrum 코어와 유사한 점을 볼 수 있으며, 이는 여전히 존재하고 강력하며, 현재도 기본 포즈와 모델 자체를 개선하고 있다는 신호입니다.

    • 이것은 견고한 코어의 특징입니다.

  • mix

    • 두 가지를 높은 강도로 혼합하고 병합했습니다. 결과는 불확실하지만, 즐겁게 사용할 수 있습니다.

Simulacrum에 카마수트라 공급 - 2024년 10월 28일 오후 7시 (GMT-7):

  • 첫 번째 15,000개의 성적 포즈 이미지를 모델에 공급하기 시작했습니다. 이 이미지들은 다양한 각도와 아키타입, 캐릭터 등을 포함한 일련의 포즈를 담고 있습니다.

  • 태그는 danbooru, gelbooru, rule34xxx 및 rule34us의 혼합입니다. 많은 태그를 정규화했지만, rule34us와 rule34xxx가 제공하는 더 희귀한 태그들은 정규화하지 않기로 결정했습니다. 이렇게 하면 더 다양한 결과를 얻을 수 있어 더 재미있을 것이라 생각했습니다.

  • 이는 섹스 패키지 2의 5단계 중 첫 번째 단계입니다. 첫 번째 단계는 교육, 두 번째는 채우기, 세 번째는 수정 및 미세 조정, 네 번째는 공개 테스트, 마지막 단계는 코어 모델로 완전 통합입니다.

  • 섹스 패키지 1은 주로 도그스타일(약 0.7 강도)로 구성되어 있으며, Simv3에 직접 통합되었습니다. 아마도 많은 분들이 이미 인지하셨을 것입니다. 곧 매우 NSFW 중심의 버전과, 사이드에서 훈련된 "안전" 패키지로 인해 안전 버전도 출시될 예정입니다.

  • 단 한 개의 포즈(35개 중 하나)였지만, 성공적인 시험 결과였기 때문에 비밀리에 공개했습니다.

  • "안전" 버전은 예술과 스타일링에 더 집중한 완전히 분리된 모델로, 성적 콘텐츠보다는 SFW 신체 통합을 위해 설계되었지만, 그 대표적인 NSFW 버전과 동일한 요소와 기능을 지원합니다.

  • 현재 버전은 하이브리드이며, 향후 버전의 코어 모델이 될 것이며, 결국 안전한 개선을 거친 모든 성적 포즈를 포함하게 될 것입니다.

  • 페어리 섹션의 소스 데이터 학습도 곧 시작될 예정입니다. 현재 약 200개의 종을 확보했으며, 각각 1,000장 이상의 이미지를 보유하고 있습니다. 태그가 매우 다르기 때문에, 특정 태그가 교차 오염되지 않도록 하면서도 1girl, 1boy, 2girls 등의 태그를 생성할 수 있는 힘을 유지할 수 있습니다. 올바른 태그 공식은 제대로 작동시키는 데 필수적입니다.

퍼리 코어를 만드는 것은 다소 두렵습니다. 일반적으로 태그에 대해 잘 알지 못하기 때문이죠. 하지만 저는 이 도전에 맞서며 빠르게 학습할 준비가 되어 있습니다.

콘테스트가 거의 끝나가고 있습니다. 최종 참가작을 제출하세요.

저는 누군가 저를 위한 마스코트를 만들어주면 5만 버즈 보상을 제공했습니다.

https://civitai.com/bounties/5177

그 버즈를 원한다면 지금 바로 시작하세요.

주요 이미지 세트는 애니메이션<<<

Dev1 = 매우 좋은 컨텍스트 + 더 빠름

Dev1Distilled = 엄청나게 높은 컨텍스트 + 향상된 품질

이 모델은 다른 것들에 매우 잘 적용됩니다. 핵심 리얼리즘 모델에 추가 학습을 적용해도 여전히 유지된다는 점에서, 이 학습 방법의 타당성이 입증되었습니다. 자세한 내용은 제가 흩어져 작성한 50개의 가이드 중 하나를 참고하세요.


/model/803213

최근 피드 상단에 가장 중요한 핵심 정보를 모두 정리했습니다.


1dev의 경우 동일한 프롬프트와 시드로 생성된 결과가 DeDistilled보다 훨씬 적은 컨텍스트 제어를 보여줍니다. 하지만 생성 속도는 훨씬 빠르므로, 균형을 고려해 선택하세요.

오늘 밤 Flux1D도 압축 버전으로 출시했습니다. 더 이상 할 에너지가 없습니다. 현재 로라(LoRA)가 없는 점도 사과드립니다. 현재 저는 64차원 128 알파 모델을, 제가 결합한 32차원 64 알파와 16차원 32 알파 모델과 안전하게 병합할 좋은 방법을 찾는 데 어려움을 겪고 있습니다. 안전한 병합을 위한 제 연구 진행 상황은 모두에게 지속적으로 공유하겠습니다.

현재 2대의 4090 GPU를 렌탈해 1만 장의 이미지로 안전한 학습을 진행 중이며, 완료까지 1주일 이상 걸릴 예정입니다. 이제는 이 기기를 몇 대 구입해 제 개인 용도로 사용하는 것이 더 낫겠네요.

아래 DeDistilled의 저품질 실사 이미지 몇 장을 재생성했습니다. 낮은 CFG로 업스케일 고정을 실행하면 유사한 품질을 생성할 수 있습니다. 항상 그렇지는 않지만, 컨텍스트 유지력은 확실히 좋습니다.

DeBlurr LoRA를 실행하세요. 이 LoRA는 사람들이 "색이 바랜" 것으로 지적하는 효과를 제거합니다. 실제로는 T5가 플럭스의 심도 흐림 효과를 방해하는 것입니다. 저는 이를 "고정 혼란"이라고 부릅니다.

UNET + CLIP_L에 LoRA를 학습시키고, T5는 어디서든 가져오세요.

그 오래된 Consistency Version 3을 기억하시나요? 이 모델이 그때의 모습이어야 했던 것입니다. 모두 즐기세요. 생성 설정은 아래에 있습니다.

NSFW 컨트롤러가 지금은 매우 잘 작동합니다. 다음 배치는 "safe" 태그 사용을 확고히 하기 위한 1만 장의 Safebooru 이미지입니다. 그러나 현재 시스템은 단순히 화면에 "safe"를 붙이는 수준입니다.

NSFW 요소를 직접 프롬프트로 입력하거나, "explicit" 태그를 사용해 강제로 표시할 수 있습니다.

세 가지 주요 학습 유형이 있습니다: 리얼리스틱, 애니메이션, 3D입니다. 프롬프트 어디에든 언제든지 넣어 원하는 방향으로 강제할 수 있으며, 전체 이미지에 영향을 줄 수도 있습니다. 지금까지 35,000장 이상의 이미지로 85만 스텝 이상 학습했습니다. 제가 약간 계산해봤죠.

이것은 Simulacrum Flux1D2 V23 병합 모델에 직접 학습된 Flux1D2 기반으로 훈련된 네 개의 고유 LoRA를 쌓은 것입니다;

저는 오늘 아침 이 모델을 만드는 방법에 관한 기사를 게시했습니다.https://civitai.com/articles/8311/flux1d2-training-guide-making-base-models-and-merging-loras-hurts 이 모든 LoRA는 DeDistilled 추론과 직접 호환되도록 학습되었습니다. 결과는... 제가 상상한 모든 것을 구현합니다. 일부 부분은 약간의 추가 작업이 필요하지만, 대부분 잘 작동합니다. 세계를 구축하고, 파괴하고, 버거로 만든 엉덩이와 치즈로 만든 성기라 해도 아무도 신경 쓰지 않습니다. 이건 당신의 세계입니다. 당신이 만드세요.

설정:

이 설정은 DeDistilled 모델에만 고유합니다;

OVERLAPPING LAYERS(겹침 계층)를 보시면 스텝을 늘리세요. 두 시스템 모두 상반된 학습이 존재하므로, 200만 장 이미지 미세 조정이 완료될 때까지 이상한 특징이 나타날 수 있습니다.

DeDistilled 설정:

  • 리얼리스틱:

    • 스텝: 35-50

    • CFG: 6.5-9

  • 애니메이션:

    • 스텝: 20-30

    • CFG: 4-7

  • 플럭스 CFG 0 << 대량의 품질 저하가 발생하기 전까지 약 1.5까지 조정 가능합니다.

  • euler < simple/normal이 제 취향입니다. 모든 학습 이후에 다른 미검증 옵션들도 있을 수 있습니다.

  • <<< 중요하지 않습니다. 어떤 크기로든 생성하세요. 버킷 학습이 이를 처리했습니다. 256부터 2048까지, 전 세계에서 수집한 35,000장의 이미지로 학습했습니다. 너무 크면 여러 이미지를 생성하고, 너무 작으면 생성이 안 될 수 있습니다.

1D 기본 설정:

  • 리얼리스틱:

    • 스텝: 20-40

    • CFG: 1

    • 플럭스 CFG: 3-5 (3.5 권장)

  • 애니메이션도 동일합니다. 원하는 대로 더 적거나 더 많이 설정하세요.

  • euler < simple/normal 사용

  • <<< 중요하지 않습니다. 어떤 크기로든 생성하세요. 버킷 학습이 이를 처리했습니다. 256부터 2048까지, 전 세계에서 수집한 35,000장의 이미지로 학습했습니다. 너무 크면 여러 이미지를 생성하고, 너무 작으면 생성이 안 될 수 있습니다.

실험 결과, 768x768 이미지를 1024x1024로 업스케일할 때, 양 모델 모두에서 euler simple/normal으로 25 스텝 설정이 좋은 결과를 보여줍니다.

/model/803213

태그 목록을 포함한 추가 생성 팁은 이 링크를 참조하세요. 개별 LoRA와 이 모델로 압축하는 방법을 담은 레시피가 곧 업로드될 예정입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.