Simulacrum V4 <|DELTA|> [F1D/DD/F1D2/UNET/CLIP_L]

세부 정보

모델 설명

!!! SIMV4 CLIP_L은 FP16 UNET에 필수입니다!!!

CLIP_L 없이 FP16 UNET이 제대로 작동하지 않습니다!

F1FP16 UNET을 실행하려면 CLIP_L이 필요합니다.

F1FP16 UNET은 CLIP_L이 필요합니다

CLIP_L은 500만 개의 샘플로 학습되었습니다.

예정된 릴리즈: 2024년 11월 15일 오후 5~6시(GMT-7)

솔직히 말해, 3.8이 더 나을 것 같아요.

SimV4 구성:

  • Simulacrum V4의 핵심 시스템은 완전히 주체 집중(subject fixation)에 기반합니다.

    • 인간, 인간형, 동물형, 페리, 로봇, 기계, 자동차, 자동판매기, 그리고 상상할 수 있는 모든 것 또는 LoRA가 있는 모든 것.

    • 많은 이미지가 다음 태그 형식으로 학습되었습니다:

    • 정의:

      • 주의 오프셋 및 묘사 태그;

        • V4에서 도입되었으며, 많은 태그가 식별되고 그 이미지 위치 오프셋이 핵심의 재확인 학습에 포함되었습니다.

        • 현재 묘사 태그는 약간 불안정하지만, 일부 상황에서는 작동합니다. 사용 시 책임은 사용자에게 있습니다.

        • depicted-middle-left

        • depicted-middle-right

        • depicted-middle-center

        • depicted-upper-left

        • depicted-upper-center

        • depicted-upper-right

        • depicted-lower-left

        • depicted-lower-center

        • depicted-lower-right

        • full-frame > 이미지의 70% 이상

        • half-frame > 이미지의 40% 이상 70% 미만

        • quarter-frame > 전체 이미지의 25% 이상 40% 미만

        • depicted-middle-left full-frame 1girl

          • 얼굴이 중앙 왼쪽에 있는 1girl이 전체 이미지에 묘사되며, 시스템은 그 주변에 많은 세부 사항을 유추합니다.
        • depicted-upper-center half-frame face

          • 상단 중앙에 얼굴이 있으며, 나머지는 불확실합니다.
        • depicted-lower-right quarter-frame shoes

          • 하단 오른쪽 모서리에 이미지의 약 1/4를 차지하는 신발 한 켤레.
      • 캡션

        • 캡션 관련 내용은 모두 앞에 위치합니다. 시스템은 255 토큰으로 학습되었으며, 캡션은 모두 80 토큰 미만이며, 각 이미지에는 CLIP_L 학습을 위해 두 개의 완전한 캡션이 부여됩니다.
      • 등급 태그

        • safe, questionable, explicit, nsfw, sex
      • 핵심 태그

        "b@s3_s1mul@cr7m", "anime", "3d", "3d model", '3d (artwork)', "blender (medium)", "source filmmaker (medium)", "sfm", "source film maker (medium)", "source filmmaker", "realistic", "real", "photo", "photorealistic", "illustration", "drawing", "painting", "digital", "traditional", "sketch", "render", "rendered", "model", "greyscale", "monochrome", "black and white", "color", "colour", 
        
      • 캐릭터

        • 캐릭터의 이름. 종종 존재하지 않지만, 존재할 수 있습니다.
      • 캐릭터 수

        • 비교적 신뢰할 수 있지만, 일부 저단계에서는 정확히 카운트되지 않을 수 있습니다.

        • 1girl, 1boy, 2girls, 2boys, a woman, two women 등

          • 원하는 결과에 따라 채워주세요.
      • 성별

        • female, male, male and female, male/female, female/male 등 성별 강화 태그.
        • 인간/동물 등 종. 지정되지 않으면 대부분의 장면은 인간을 기본으로 합니다.
      • 시리즈

        • 이미지를 시리즈/저작권 태그로 스타일링합니다. 현재는 이미지를 완전히 과부하시키는 경우가 많습니다. 시리즈/저작권 태그는 V5 학습을 위한 것입니다.
      • 장면 촬영 유형

        "photo","photorealistic","photography","photo-realistic","photo-realism","close-up","portrait","cowboy shot","dutch angle","three-quarter view","profile","headshot","full body","fullbody","half body","halfbody","close up","above view","below view","front view","rear view","side view","back view","overhead view","aerial view","aerial shot","aerial perspective","aerial photography","aerial photograph","aerial image","side shot","side perspective","front shot","front perspective","rear shot","rear perspective","back shot","back perspective",
        
      • 대체

        • 핵심 시스템이 다른 요소보다 중요하다고 판단하는 모든 항목. 태그 파일의 토큰 수가 255를 초과하여 태그가 생략되는 것을 방지합니다.

        • 자세, 크기 그룹, 신체 부위, 환경 상호작용 등을 포함합니다.

          • couple, arms, legs, lying on side, hugging, kissing

          • midsection, navel, muscular abdomen, cleft of venus

      • 미학 및 품질 태그

        • very aesthetic, aesthetic, displeasing, very displeasing, disgusting

        • highres, absurdres, lowres

      • 연도 태그

        "1970s", "1980s", "1985s", "1990s", "1995s", "2000s", "2005s", "2010s", "2015s", "2020s", "2025s", "1980","1981", "1982", "1983", "1984", "1985", "1986", "1987", "1988","1989", "1990", "1991", "1992", "1993", "1994", "1995", "1996","1997", "1998", "1999", "2000", "2001", "2002", "2003", "2004","2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012","2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020","2021", "2022", "2023", "2024", "2025",
        
      • 삭제된 태그 - 후속 학습에서 완전히 제외됨

        "tagme","bad pixiv id","bad source","bad id","bad tag","bad translation","untranslated*","translation*","larger resolution available","source request","*commentary*","video","animated","animated gif","animated webm","protected link","paid reward available","audible music","sound","60+fps","artist request","collaboration request","original","girl on top","boy on top","character request","original","original character"
        
  • 미학 태그와 함께 STEPS를 사용하세요;

    • 10 STEPS

      • disgusting

        • 기초 Simulacrum NovelAI V3 합성 자세 이미지 세트를 생성하며, 종종 손, 눈, 해부학적 오류가 있습니다.

        • 매우 단순한 윤곽선 및 빠른 자세 테스트에 적합합니다.

      • very displeasing

        • 단순한 애니메이션/만화/코믹스용

        • 약간의 세부 사항을 추가하지만, 10스텝에서는 기대할 수 없습니다.

      • displeasing

        • 괜찮은 결과를 생성하며, 캐릭터나 단순한 애니메이션에 나쁘지 않습니다.
      • aesthetic/very aesthetic

        • 하지 마세요. 스텝 수가 부족합니다.
    • 20 STEPS

      • disgusting

        • NovelAI 캐릭터 신체에 맞는 색상과 거의 정확한 해부학을 생성해야 합니다.
      • displeasing/very displeasing

        • 코믹스, 윤곽선, 만화 등을 놀라운 양으로 생성합니다. 나쁜 옵션은 아닙니다.
      • aesthetic

        • 흰색 배경의 단순한 캐릭터/애니메이션 인물
      • very aesthetic

        • 해부학적으로 나쁜 품질의 리얼리즘을 생성합니다. 때때로 좋은 결과도 나옵니다.
    • 30 STEPS

      • disgusting

        • 시스템이 다른 미학 태그와 결합하여 더 많은 세부 사항을 채우기 위한 적절한 품질의 NovelAI 애니메이션 실루엣을 생성합니다. 저스텝에서는 잘 작동하지 않습니다.
      • aesthetic

        • 배경이 있는 캐릭터/애니메이션/반리얼리즘 인물
      • very aesthetic

        • 해부학은 괜찮지만, 손, 발, 눈, 얼굴 및 색상은 결과가 불안정합니다.
    • 40 STEPS

      • aesthetic

        • 애니메이션에 더 가깝지만 여전히 반리얼리즘을 생성합니다.
      • very aesthetic

        • 흐릿한 배경과 함께 품질 좋은 캐릭터/애니메이션/반리얼리즘/사진처럼 보이는 인물을 생성하며, 주로 반리얼리즘으로 변환합니다.
    • >= 50 STEPS

      • disgusting - 애니메이션

        • 정의된 NovelAI v3 신체를 생성하며, 결과가 일정하지 않으며, 10스텝과 매우 유사합니다.
      • displeasing

      • aesthetic

      • aesthetic, very aesthetic - 리얼리즘/사진처럼 보이는, 리얼리즘 배경

        • 스텝을 더 올리기 전까지 시스템이 생성할 수 있는 최고의 이미지를 생성합니다. 50스텝을 넘어서는 테스트는 하지 않았습니다.

        • 3D, 애니메이션, 블랜더, SFM 및 다양한 약한 아티스트 영향을 포함한 광범위한 스타일 차이를 생성합니다.

  • 해상도 사용;

    • 1218x832, 1338x768

      • 풍경, 건축, 다수 캐릭터, 가로 만화
    • 832x1338, 832x1216, 768x1024, 832x1024 ...

      • 세로, 긴 이미지, 세로 만화
    • 1216x1216, 1024x1024, 832x832, 768x768, 512x512

      • 1:1 비율

      • 다양함

  • 이미지 상단에서 하단까지 캐릭터를 구성하세요. 화면을 3x3 그리드처럼 다루세요.

버니다운

  • V38과 V4의 주요 차이점:

    • 손 강화 및 강화를 위해 5,000개의 HAGRID 손 자세 이미지로 학습되었습니다.

    • 세 가지 핵심 스타일을 구분하기 위해 내가 찾을 수 있는 최고 품질의 이미지 1,000장을 정제했습니다.

      • 총 약 5만 개의 샘플
    • 핵심 이미지 및 데이터셋 기반 강화 학습.

      • 약 8만 개의 샘플
    • 색상 및 자세 강화 학습.

      • 약 5만 개의 샘플
    • 애니메이션, 3D, 인간 상호작용을 더 정확히 식별하도록 정교하게 튜닝된 CLIP_L. 이전보다 훨씬 더 복잡한 장면과 상황을 식별할 수 있습니다.

      • 5,000,000 샘플

        • cheesechaser 및 wildcard에게 감사합니다. 제가 무엇을 가르쳤는지는 모르겠습니다.

        • 주로 Danbooru, Gelbooru, R34에서 유래했습니다.

Simulacrum V32의 결정적이고 강력한 반안정적 모델 진화. 유도부터 현재까지 약 200만 개의 샘플로 학습되었으며, 새로운 맞춤형 raidboss 등급의 500만 샘플 CLIP_L과 결합되어, 완전히 Simulacrum 핵심, 주체 집중, 자세 및 화면 상대 위치에 전념하고 있습니다.

각 LoRA는 BF16에서 학습되었으며, 추가적이고 체계적인 방식으로 병합되어, 이 전체 통합 버니 병합 LoRA를 포함하여 COMFYUI를 사용해 핵심 모델에 연결 및 병합되었습니다. 각 LoRA의 핵심 블록은 수동으로 선택된 방법으로 정밀하게 병합되었습니다. 저는 여러 맞춤 노드를 제작하고, FP 스케일링을 특별히 통합하기 위해 체크포인트 저장 시스템을 재구성했습니다.

버전 4는 CLIP_L의 추가 유연성으로 인해 기본 플럭스의 영향을 더 많이 받으며, 이전 어느 버전보다도 핵심 시스템에 더 많은 행동을 부여합니다. 만화, 애니메이션, 3D 및 리얼리즘 간의 고해상도 구분이 가능합니다.

CLIP_L은 FLUX DeDistilled이 제공하던 많은 이점을 대체하며, DeDistilled과 비교할 수 있는 분기된 기준 F1D 핵심을 제공합니다.

내가 시도한 모든 LoRA와 호환됩니다. Consistency 또는 Simulacrum의 이전 버전보다 더 일관된 결과를 생성하도록 태깅을 향상시키며, 모든 변형에서 더 높은 품질, 더 높은 컨텍스트 인식, 더 높은 학습 수준, 더 높은 토큰 수, 더 높은 검증 시스템을 제공합니다.

이것은 천천히 조리되고, 광범위하게 테스트되며, 높은 이미지 수의 LoRA들이 결합되어 네 번째 버전 모델로 통합된 것으로, 개별적이고 단일 캐릭터에 특화되었습니다.

다수 캐릭터 및 캐릭터 상호작용은 이 버전에서 약하며, 복잡한 장면 내에서 더 견고한 개별 캐릭터와 더 일관된 기초 모델을 생성합니다.

이 버전의 초기 LoRA 학습 결과는 안정성을 유지하면서 훨씬 더 높은 학습률(UNET LR 0.0009, CLIP_L TE 0.000001)로, 훨씬 짧은 시간 내에, 더 적은 샘플과 반복(300 샘플)으로 학습 가능함을 보여줍니다. 이 모델의 궁극적인 목표는, 이 UNET 및 CLIP_L을 빠른 학습의 기초 모델로 사용하여, 개인이 원하는 캐릭터를 거의 또는 전혀 학습 없이 생성하는 것입니다.

초기 테스트 결과에 따르면, LoRA에서 이미지를 생성하기 위해 Simulacrum V4 모델이 필요하지 않을 가능성이 있습니다. 즉, 3080 GPU에서 단 5분 이내에 30장의 이미지로 LoRA를 학습하여 기본 플럭스에서 작동할 수 있으며, 이는 SimV4 F1D2pro UNET과 CLIP_L을 사용해 학습했기 때문입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.