SDXL - Majestic Plastic Bag
세부 정보
파일 다운로드
모델 설명
《아메리칸 비ュ티》의 진짜 스타에게 바치는 경의. 이 사이트의 자동 태그 시스템이 도대체 무슨 일이 벌어지는지 파악하지 못하는 모습을 보니 이미 마음에 든다.
곧 이어지는 요약, 주의하세요.
먼저, 학습 중에 무슨 일이 일어나는지, 어떤 데이터셋이 필요한지, 이미지의 품질(이 경우 최악이었음), 스텝 수, 모델을 유연하게 만들거나 고정시키는 요소 등에 대한 테스트였다.
일정 시간이 지나고 기본 모델에서 얻은 출력을 사용한 후, 점점 더 나아졌으며, 결국 완벽하게 떠다니는 플라스틱 봉지만을 생성하는 모델이 완성되었다. 이건 받아들일 수 없었다.
20장의 이미지 - 동일한 배경 - 저화질 캡처 - 650스텝 = 매우 고정되어 있지만 학습 데이터와 꽤 가깝다. 아무런 프롬프트도 주지 않았음에도 벽돌 벽, 잎사귀, 콘크리트 바닥을 모두 추가한다. 흥미롭게도 자동차 모델/연식은 영화가 제작된 시대와 어울린다. 그러나 일반적인 오래된 미국차에는 익숙하지 않다.
20장의 이미지 + 10장의 고화질 AI 생성 이미지 - 1250스텝 = 더 유연해졌지만 의도한 개념에서 벗어나기 시작했다. 여전히 흐린 날의 벽돌 벽 거리 이미지에 편향되어 있었다.
블라블라... 이 과정이 꽤 오래 지속되었다.
나는 실제로 내가 나중에 프롬프트로 사용할 것과 같은 이미지로 모델을 학습시키지 않는 이유 중 하나가, 무작위성을 파괴할 가능성이 있기 때문이다. 예를 들어, 이전 모델인 “Armored”를 “무장한 고양이”라는 단일 이미지만으로 학습했다면, 무장한 고양이를 원할 때마다 항상 그 이미지에만 치우쳐져서 모든 결과가 훨씬 덜 유연해졌을 것이다. 하지만 AI가 당신이 원하는 것을 모른다면, 그게 오히려 어떤 경우에는 이점이 될 수도 있다.
내가 여기에 처음으로 올린 모델(Square Hammer)에서 그것을 확인했다. 단 하나의 달이 있는 이미지, 박쥐가 있는 이미지 하나만 있었고, 그 이미지들에 대해 “달의 사진”, “박쥐의 사진”이라는 프롬프트는 전혀 주지 않았음에도 불구하고, 모델은 그 요소들을 꼭 추가하려 했다. 이러한 편향은 부정적 프롬프트에 해당 단어를 넣어 제거할 수 있지만, 그렇게 하는 건 다소 불편하다.
“젤리빈처럼 생긴 xxx”라는 개념으로 모델을 학습시킬 때, 15장의 이미지 데이터셋 중 단 한 장만 여성의 사진을 넣고, 나머지 14장은 AI가 무엇인지 전혀 모르는 젤리빈처럼 보이는 사물들이라면, 모델은 여성의 사진에 극심하게 편향될 것이다. 이미지의 양과 다양성은 중요하며, 스텝 수도 마찬가지다. 보통 이미지가 많을수록 더 많은 스텝이 필요하다.
손실률(Loss rate)도 또 다른 요소다. 이게 중요한지 아닌지에 대한 의견이 수많다. 나는 중요하다고 생각하지만, 원하는 바에 따라 달라진다. 내 관찰에 따르면:
- 15장의 이미지, 양질의 캡처, 낮은 손실률(예: 0.144) – 몇 스텝만으로 충분하고 모든 것이 설정되지만, 600스텝만으로도 매우 고정되어 있다.
- 15장의 이미지, 캡션 없음, 모델이 알고 있는 개념, 중간 손실률(예: 0.444) – 약 2000스텝이 필요하며, 더 유연하지만 개념에서 벗어나기 쉬움.
- 15장의 이미지, 캡션 없음, 모델이 전혀 이해하지 못하는 개념, 높은 손실률(0.945) – 엄청난 스텝이 필요하거나, 스텝 수가 아무리 많아도 성공 가능성은 낮음… 하지만 학습은 어쨌든 무언가를 잡아낸다. 단지 예상치 못한 무언가로 이어지는 미약한 흔적일 수도 있다.
하지만 나는 SDXL이 스스로 일부 내용을 해석하는 능력에 크게 의존한다. 예상치 못한 결과는 내게 가장 훌륭한 것이다. 물론 특정 캐릭터나 정확히 원하는 개념을 구현하려는 경우라면 이야기가 달라지고, 보통 그게 더 쉽다.
이 모든 것은 대체로 추측과 관찰에 기반한다. 성공과 실패를 결정짓는 수많은 요소들이 존재한다. 조금이라도 조사해 보면, AI 모델과 그 주변 모든 것을 만든 사람들조차도, 자신의 창작물이 어떻게 작동하는지, 진정으로 무엇을 할 수 있는지 전혀 모른다는 것을 알게 될 것이다(특정 다운로드 가능한 모델이 아니라, 전체 AI 구조에 대해 말하는 것이다).
자, 그럼 당신의 무작위로 떠다니는 플라스틱 봉지를 즐기세요.








