ReDefine-Experimental

세부 정보

파일 다운로드

모델 설명

참고: "실험적"이라는 표현은 그대로 실험적이라는 뜻입니다.

버전 0.31

기본 모델이 순수한 NAI2에서 병합 모델로 변경되었습니다. NAI2의 프롬프트에 대한 반응 방식은 일반적인 SD1.5 모델과 상당히 다릅니다. 이로 인해 약간의 격차가 줄어들었고, 이전 모델들에서는 처리가 어려웠던 프롬프트도 처리할 수 있게 되었습니다. 그러나 여전히 일부 프롬프트는 전혀 처리가 불가능하므로, 이 모델은 만능 모델은 아닙니다.

● 샘플러

Euler a를 권장하지만, 일부 샘플 이미지에서는 Restart.lab 샘플러를 사용했습니다. 원래 A1111에서 Blackwell용 Kohaku_lonyu_yog를 사용할 수 없어 이를 대체할 수 있는 방법을 찾던 중 이 샘플러를 도입하게 되었습니다. 이는 샘플링 과정 중간에 노이즈를 추가하고 다시 처리하는 유형의 샘플러로, 먼저 t2i로 정상적으로 렌더링한 후, 중간에서 i2i로 생성을 반복합니다. 이 방식은 이미지를 무조건적으로 개선하지는 않지만, 재시작 조건을 임의로 설정할 수 있기 때문에 도입할 만한 가치가 있다고 생각합니다. 또한 Restart.lab 샘플러를 사용하면 Euler a나 Kohaku_LoNyu_Yog 등의 알고리즘으로 재시작을 설정할 수 있습니다.

https://yukitoki.blogspot.com/2023/12/webui-1111restartlabstable-diffusion.html

● 출력 해상도

이번에는 저해상도인 512x768 픽셀만 사용하도록 되돌아갔습니다. 이유는 출력 속도가 빠르고 결함이 쉽게 드러나기 때문입니다. 원래 ReDef 시리즈가 목표로 하는 고해상도는 데이터 정의와 관련된 것이며, 큰 이미지를 출력하는 것 자체가 목적이 아니라 더 세밀한 정보를 포함하는 데 초점이 있습니다. 큰 이미지를 선택하면 512x512 픽셀(대부분의 학습 데이터)로 학습된 내용을 활용할 수 없으며, 구성도 종종 제한적이게 됩니다. NAI2 시리즈에서는 1024 픽셀 출력을 시연으로 사용했지만, 이는 실용적이지 않으므로 중단합니다.

● 품질 프롬프트

대안이 없기 때문에, NAI2 샘플을 기반으로 샘플 이미지 생성 시 품질 프롬프트를 사용합니다. 그러나 이는 때때로 이미지가 깨지는 원인이 될 수 있습니다. 프롬프트가 여러 사용자에게 효과적이지 않을 경우, 품질 프롬프트를 조정하세요. 이미지가 심각하게 깨질 경우, 품질 프롬프트를 약화시키는 것이 종종 문제를 해결합니다.

버전 0.3 (NAI2 기반)

ReDef 시리즈의 세 번째 버전을 여러 가지 프로토타입으로 만들어 왔지만, 출시 직전에 버전을 계속 변경하고 방향을 바꾸며 다시 시작하는 일이 반복되었습니다. 이번 버전은 NovelAI 버전 2를 기반으로 합니다. ckpt로는 NAI2만 사용합니다.

모든 샘플은 1024x1536 픽셀(비-HiRes.Fix)이며, Euler a로 20스탭 출력됩니다. CFG 스케일은 7입니다.

ReDef 시리즈는 원래 고해상도 출력을 목표로 했습니다. 보조 데이터에 사용된 LoRA는 최대 약 1280 픽셀 크기로 생성되었기 때문에, 이전 모델들은 약 640x960까지 사용할 수 있었습니다. 기반 모델이 1024x1536을 지원하지 않아 훨씬 더 많은 데이터를 준비해야 했습니다.

NAI2가 1024 픽셀을 기반으로 하므로, 이번에는 NAI2만 사용해 시도해 보았습니다. 현재 완성도는 높지 않으며 여전히 데이터가 부족합니다. 그러나 기반 모델로 사용할 수 있음을 확인할 수 있었고, 이는 중요한 진전입니다.

문제점은 다음과 같습니다:

- LCM으로 제대로 확인할 수 없음
- 품질 프롬프트가 필수적임

개인적으로 저는 그렇게 좋아하지 않지만, 일반적으로 많은 사용자들이 큰 문제를 느끼지 않을 것입니다(NAI2 샘플을 참고로 했지만, 자세한 내용은 샘플을 참조하세요).

NAI2는 프롬프트 일치도가 낮았습니다. 향후에는 기존 모델과 병합하는 방식으로 기반을 잡아야 할 것입니다. 손가락과 신체 구조의 안정성은 영원한 이슈입니다.


버전 0.21SR

이 버전은 ver.0.2에 일반적으로 사용되며(약간 효과적인) 프롬프트와 소위 네거티브 임베딩(TI)을 모델에 병합한 버전입니다(두 항목 모두 같은 기능을 수행합니다).

・프롬프트 병합

프롬프트를 TI로 변환하여 모델에 병합합니다. 이번에는 양성 프롬프트만 포함되었지만, 부정 프롬프트도 동일한 방식으로 처리할 수 있습니다. 많은 장식적 품질 프롬프트를 사용하는 사용자들에게는 별로 의미가 없지만, 단순한 프롬프트 표현을 더 사실적으로 만드는 효과가 있습니다.

・네거티브 임베딩 병합

TI 사용은 항상 긍정적인 효과를 주는 것은 아닙니다. 여기서는 비교적 무해한 FastNegativeV2를 도입했습니다. BadHand나 UnrealDream 등도 시도해 보았지만, 개인적으로는 그다지 좋은 효과를 얻지 못했습니다.

이러한 병합은 신체 안정성을 약간 개선했으며, 손가락 개선은 미세했지만 때로는 분명히 아름다운 손이 생성되었습니다. 얼굴 크기가 개선되었지만, 중간 거리 이상의 얼굴 표정은 그대로이거나 약간 악화되었고, 프롬프트 일치도는 약간 감소했습니다. 전반적으로 더 안정적인 이미지가 생성되었지만, 서 있는 자세 등 더 지루한 이미지가 나타나는 경향이 있었습니다.

이번에는 ±1.0으로만 병합했지만, 일부 조정을 가하면 더 효과적으로 사용할 수 있을 것으로 보입니다. 프롬프트의 버닝 효과는 LECO 및 iLECO의 개념 강조보다 훨씬 강력한 것으로 나타났습니다(개념 제거는 검증되지 않음). 향후 개념 기반 LoRA 그룹으로 대체할 계획입니다.

이전 샘플 이미지와 마찬가지로, 7스탭 저해상도 출력을 LCM LoRA를 사용하여 수행했습니다.


버전 0.2SR

이 버전은 반실사적 테스트 모델입니다. ver.0.1과 달리 여러 모델을 병합한 형태입니다. 많은 구성 요소는 ver.0.1과 동일하지만 구조가 더 간단합니다. 새로 추가된 요소 중 실제로 검증된 것은 하나뿐입니다. 두 가지 신규 재료는 예상 효과를 내지 못해 채택하지 않았으며, 다시 조정할 예정입니다.

출력은 이전 버전과 마찬가지로 LCM LoRA를 사용한 7스탭(또는 8스탭) 저해상도입니다. 신체 구조, 손가락, 중간 거리 얼굴은 ver.0.1보다 더 불안정합니다. 또한 때때로 불필요하게 NSFW 요소가 더 많이 나타납니다. 일부 조정 오류가 있지만, 이는 실사 신체 구조 강화 재료의 증가로 인한 것입니다. 의상용 전체 신체 재료가 너무 부족합니다...


버전 0.1

이것은 최근 제가 실험해 온 모델의 예시입니다.

모든 샘플은 LCM을 사용한 7스탭 저해상도 출력입니다.

아직 SD1.5를 계속 개발하고 있는지 의문을 제기할 수 있지만, 저는 여전히 새로운 발견을 하고 있습니다. 형식에 제한이 있지만 가능성은 계속 확장되고 있습니다.

그러나 요소 수준까지 올라가더라도 병합만으로는 한계가 있으며, 전체 미세 조정은 비용이 많이 들고 무엇보다도 여름입니다. 따라서 현재 실험의 목적은 LoRA를 통한 추가 학습으로 SD1.5의 인체 구조를 재정의하는 것입니다.

이번 모델은 제가 개발한 LoRA의 테스트 과정을 보여주는 것이며, 최종 버전은 아닙니다. 테스트는 RM01과 다른 모델을 기반으로 하였고, 새 LoRA의 효과가 확인되었습니다.

LoRA를 제외하고, 이 테스트의 주제 중 하나인 이미지를 귀엽게 만드는 것을 제외하고, 얼굴이나 전체 색상에는 거의 조정을 하지 않았습니다. 배경이 예상치 못하게 어긋나서 BGEnhace를 약간 추가했고, 그 외에는 보조 LoRA를 사용해 RM01 이미지를 애니메이션 스타일로 변환하는 것뿐입니다.

신체 구조가 종종 심하게 붕괴됩니다. 이 프로젝트의 주요 초점은 손가락 개선이었지만, 어려운 각도를 적극적으로 학습함으로써 일부 부정적 영향도 발생했습니다. 여전히 학습 자료가 충분하지 않은 것으로 보입니다.

남성이 전혀 나타나지 않는 것은 아니지만, 남성의 등장은 기대할 수 없습니다. 풍경이나 다른 요소와 관계없이 여성이 나타납니다.

이번에는 약 4,000장의 이미지를 사용했습니다. 전체 미세 조정에 비해 이미지 수는 적지만, 많은 표현 요소가 새로 학습된 내용입니다. 이를 '훈련된 모델'이라 불러도 무방하므로, 이 곳에 등록했습니다. 또한 EtudeFT 및 기타 도구를 사용해 수만 장의 이미지를 수집하였으며, 이들을 분류하고 LoRA로 변환, 조정한 후 기반 모델에 통합할 계획입니다. 이번에는 일반적인 RM01을 기반 모델로 사용했지만, 애니메이션 그림이나 사진 등 각 용도에 맞는 기반 모델도 프로토타입 중입니다.

많은 LoRA는 DoLAs(LyCORIS)로 생성되며, 이번에는 LyCORIS를 정확히 병합하는 방법을 찾는 데 어려움을 겪었습니다. 결국 11번 나누고 병합한 결과 비슷한 성능을 얻었습니다. 병합 횟수가 너무 많아 이미지 세부 사항에 품질 저하가 발생했습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.