Rite of Wrong

세부 정보

모델 설명

이 LoRA는 미래적이고 전자적이며 (stuff)punk 스타일의 요소에 치우쳐 있지만, 다양한 건설 엔진으로 설계되었습니다. 또한 이 LoRA는 실제 이미지를 쉽게 생성하며, ZIT가 그 자체의 매력으로 생성하는 흐릿함을 정리하는 데에도 뛰어납니다(다른 사용자들이 저와 같은 경험을 하는지 확신할 수는 없지만, 저는 종종 ZIT의 원시 출력을 부드럽게 하기 위해 다른 LoRA를 사용합니다).

하지만 먼저 분명히 말하자면, 저는 한 주 동안 주로 인간을 보완하기 위해 설계된 "기계(Mech)" 건설 키트를 만들려고 애썼습니다. 수만 스텝의 반복, 여러 단계의 정제, 추가 이미지와 신체 공포를 유발하는 이미지(노출은 모델을 혼란스럽게 만드는 경향이 있음)를 제거하는 정리 작업을 거쳤지만, 세 번의 시도 끝에 제가 원하던 마법을 발휘하지 못한다는 결론을 내렸습니다. 하지만 이 모델은 너무나 소중해서 그냥 버리기 아까워, 기대치를 조정하고 다양한 스타일을 실험한 끝에, 이 LoRA가 단순히 유용한 도구를 넘어서, 미래에 제가 이 분야를 더 잘 이해하게 되었을 때 만들어보고 싶었던 것이었음을 깨달았습니다.

여정을 통해 주제를 계속 추가하고, 데이터셋을 교정하며 정리하는 과정에서, 제가 목표로 삼은 방향으로 수렴하기 시작하는 지점이 나타났습니다. 그러나 그 이후 약 500스텝 정도에서 모델은 붕괴되었습니다. 그래서 저는 이 LoRA를 다른 방향으로 이끌어야 한다는 것을 알았고, 구체적으로 말하면, 이 모델이 무엇을 할 수 있는지를 바탕으로 이 도구에 어떤 이름을 붙일지 결정해야 했습니다. 그럼에도 불구하고, 제가 처음에 만들려고 했던 LoRA의 일부 특징을 유지하고 싶었습니다. 제가 원했던 세 가지 핵심 특징은 다음과 같습니다. 이 세 가지 없으면 완전히 실패입니다: 인간형 기계는 크고 둥근 어깨 캡을 지녀야 하고, 곤충 같은 디테일을 가져야 하며, 팔의 크기가 신체의 다른 부분과 비례하지 않아야 합니다.

이 목표를 달성하기 위해, 수렴이 붕괴되었을 가능성이 있었던 15,000스텝의 전이 과정을 유지하고, 이를 이 LoRA의 기반으로 삼았습니다. 그리고 658개의 이미지를 사용하여 다음 분야를 타겟으로 삼아 16가지 독특한 스타일 및 장르 특성을 도입했습니다:

사이버펑크
스팀펑크
디젤펑크
스페이스펑크
사이보그
1800년대 - 빅토리아 시대
오래된 서부
미래적
영웅(일반적)
산업용 로봇(골격)
곤충
로봇(인간형)
환경(다양한 건축, 실내, 테마)
복장(의상, 패션, 스타일)
사람 - 기타(다양한 상황과 환경에서의 남성 및 여성)
전자기기(부품, 회로 기판, 메인보드, 미니보드 등)

원래 주제를 위한 데이터셋을 구성할 때, 저는 건설을 염두에 두고 다양한 특징들이 서로 다른 요소에 접근할 수 있도록 설계했습니다. 이는 설명하기 어려울 수 있지만, 모델 내에서 동물이 위치할 수 있는 영역과 인간이 위치할 수 있는 영역이 다르다고 생각해보세요. 이러한 영역은 클러스터로 간주할 수 있으며, 클러스터 간에 연결이 존재하면, 각 클러스터의 다양한 특징을 조합하여 더 풍부한 구조를 만들어낼 수 있습니다. 이러한 클러스터 간의 다리 역할을 하기 위해, 서로 다른 클러스터에 속할 수 있는 항목들을 이미지에 비연관적으로 삽입하여, 하나의 요소에서 다른 요소로 무언가를 전달하도록 연결했습니다. 예를 들어, 곤충의 세부적인 특징을 인간, 사이보그, 기계에 통합하려는 의도였습니다. 이를 통해 프롬프팅을 건설 도구로 활용하여 복잡하게 디자인된 인간형 기계를 만들 수 있었습니다. 저는 이를 ‘앵커링(anchoring)’이라고 부릅니다.

이전에도 앵커링에 대해 이야기했지만, 여기서 이 구현 방식이 가장 강력하게 작동합니다. 위에서 언급한 주체들의 알려진 특징을 참조하면, 신경망 내부를 탐색하여 모델이 이미 학습한 특성들을 훈련 당시와 동일한 선명도로 끌어낼 수 있습니다. 이 LoRA는 이미 확립된 내용을 덮어쓰지 않고, 대신 다양한 방식으로 보완하며, 전후 비교 시 명확하게 드러납니다.

훈련에 사용된 모든 이미지는 성적 상호작용이나 노출된 내용을 포함하지 않았으며, 앞서 언급했듯이 모든 노출 이미지를 제거했습니다. 이는 다른 LoRA를 사용하여 누락된 세부사항을 추가할 때 앵커링에 약간의 간섭을 일으킬 수 있습니다.

제 생각에, 생성되는 신체 공포와 누락된 주제의 매우 낮은 품질은, 우리가 이러한 콘텐츠를 추가할 수 없기 때문에 의도적으로 경로가 손상되었기 때문입니다. 이 콘텐츠를 수용할 클러스터가 없거나, 혹은 이러한 콘텐츠를 담기 위해 식별된 클러스터가 100% 소고기(Beef Chuck)로 가득 차 있기 때문입니다. Z-Image-Omni가 공개될 때도 더 자유로워질 수 없다고 생각하지만, Lodestone 덕분에 우리는 더 이상 신경 쓰지 않아도 됩니다.

이 상황이 계속된다면, 당신의 머리카락이 제대로 빗겨졌는지 확인하려면 LLM이 당신을 바라봐야 할 것입니다. 왜냐하면 거울에 당신의 얼굴을 비추는 대신, 빨간 경고 문구가 오버레이되어 "실제 인간 감지됨, 안전 조치가 활성화되었습니다!"라고 당신에게 안심을 주기 때문입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.