Yellow Pearl AND Blue Pearl (Steven Universe)
세부 정보
파일 다운로드
모델 설명
이 모델은 주로 훈련이 어떻게 작동하는지 분석하기 위해 실험적으로 설계되었습니다.
목표: 단어를 사용한 훈련이 어떻게 작동하는지 이해하기. 왜 이것이 중요한가요? 저는 항상 트리거 단어에만 훈련합니다.
여기에 정말 알아야 할 내용:
이 모델은 두 캐릭터—블루 펄과 옐로 펄—을 알고 있습니다. 저는 이 모델을 이 두 단어만으로 훈련했습니다.
데이터셋에는 그들이 개별적으로 그리고 함께 있는 이미지가 포함되어 있었습니다. 어떤 이유에서인지, 모델은 가끔 임의로 두 캐릭터의 요소를 하나의 이미지에 혼합해 나타냅니다. 예를 들어, 블루 펄을 보여주고 싶었지만, 그녀가 옐로 펄의 복장을 입고 나오거나, 원하지 않았음에도 옐로 펄이 배경에 나타날 수 있습니다. 또한, “2girls” 태그를 사용한 작업에서도 왜인지 옐로 펄이 배경에 나타났습니다. 이 문제를 단어로 해결할 수 있을까요? 아마도 그렇습니다. 저는 부정 프롬프트로 많은 테스트를 하지 않았습니다.
여러분이 직접 분석할 수 있도록 데이터셋을 다운로드할 수 있도록 남겨두겠습니다.
이 모델이 CivitAI에서 어떻게 훈련되었는지의 스크린샷을 남겨두겠습니다. 이는 여러분이 한 명 이상의 캐릭터로 모델을 훈련하려는 경우 매우 유용할 수 있습니다.
다음으로, 훈련 과정과 제가 무엇을 해야 했는지에 대해 설명하겠습니다. 이 자기 분석은 모델을 훈련하려는 분들께도 도움이 될 수 있습니다.
저는 모델에 캐릭터의 이름만 지정했고, 고유한 복장은 지정하지 않았기 때문에, 복장을 명시하지 않으면 옷 세트가 임의로 선택된다고 가정할 수 있습니다. 기술적으로는 훈련 세트에 포함된 학교복이 나타날 수도 있지만, 대부분의 경우 만화에서의 전통적인 복장이 나타납니다. 만약 전통적인 복장에 최소한 하나 또는 두 개의 태그를 추가했다면 훈련은 � нам 훨씬 더 통제 가능했을 것이지만, 그 단어들을 명시적으로 작성해야 했을 것입니다. 왜냐하면 프롬프트에서 그 단어들이 빠지면 오히려 부정적인 영향을 줬을 수 있기 때문입니다. 하지만 어쨌든 우리는 결코 알 수 없을 것입니다. 왜냐하면 이 버전이 저에게 충분히 만족스럽기 때문입니다. 저는 훈련에 또 500–700의 버즈를 쓰고 싶지 않습니다.
솔직히 말해, 저는 꽤 많은 모델을 훈련시켰습니다. 하지만 대부분을 공개하지는 않습니다. 왜냐하면 그들 중 상당수는 일반적인 사용자들이 처리하기 어려운 미묘한 특성을 포함하고 있기 때문입니다.
이 모델에는 결함이 있지만, 가장 흥미로운 부분—스타일의 다양성—을 잘 처리합니다. 저는 비교적 큰 데이터셋으로 훈련했고, 거의 모든 이미지가 서로 다른 스타일을 가지고 있어서 모델이 한 가지 스타일에만 고정되는 것을 방지할 수 있었습니다. 모델은 유사점을 기억합니다. 만약 10개 중 5개의 이미지가 같은 스타일이라면, 아름다운 LoRA를 단순히 포함시키는 것이 그렇게 쉬운 일이 아닐 수 있습니다.
마지막으로, 떠오르는 몇 가지 팁을 드리겠습니다:
모델이 아직 모르는 것을 가르치세요. 모델은 이미 망토가 무엇인지, 바람에 흩날리는 모습을 알고 있습니다. 하지만 예를 들어, 캐릭터의 뿔은 매우 독특할 수 있으므로, 이를 명시적으로 지정해야 할 것입니다. 모델은 보는 모든 것을 기억합니다. 제 친구 알마즈가 저에게 남긴 예시가 정말 인상적이었습니다. 그의 이름은 실제로 알마즈입니다. 그건 강력합니다. 어쨌든, 만약 1,000개의 성냥상자 이미지에서 내부의 모든 성냥이 다색이고, 단지 한 장의 이미지에서 하나의 성냥만 검은 색이라면, 모델은 그 검은 성냥을 기억할 것입니다. 만약 색상을 라벨링하지 않았다면, 모델은 계속해서 검은 성냥을 생성할 것입니다. 왜냐하면 모든 것을 기억하기 때문입니다. 특히 캐릭터가 생성될 때, 아티팩트를 포함한 훈련은 신중해야 합니다. 그렇지 않으면 모델이 그 아티팩트를 항상 기억하고 그리게 될 것입니다. 때로는 데이터셋을 재고하는 것이 좋습니다. 어떤 경우에는 품질이 나빠서 아이디어 자체를 포기하기도 했습니다. 참고로, 품질은 때때로 중요합니다. 때로는 이미지를 업스케일하는 것도 의미가 있습니다. 하지만 많은 요소를 고려해야 합니다. 예를 들어, 이미지 해상도를 말할 때, 훈련에서 지정된 해상도가 무엇을 의미하는지 생각해본 적이 있나요? 사실, 지정된 크기보다 큰 이미지는 압축됩니다. 훈련 중 이미지 압축에 어떤 방법이 사용되는지 알고 있나요? 저 개인적으로는 상상조차 할 수 없으므로, 작업에 신경 쓴다면 모든 것을 미리 압축하는 것이 낫습니다. 하지만 뭔가가 어떻게 진행되는지 전혀 모르겠다면, 그냥 놔두는 것도 괜찮습니다. 훈련이 더 크고 진정으로 중요해질 때, 여러분은 자신의 실수를 분석하기 시작할 것입니다.
훈련에서 이해해야 할 더 많은 매개변수에 대해 말할 수 있지만, 아마도 그에 대한 별도 섹션을 만드는 것이 나을 것입니다.
아, 거의 잊었네요—캐릭터들의 특징 중 하나는 가슴에 있는 보석입니다. 훈련에 이를 포함시켰다면 차이가 있었을 것이며, 더 많은 통제를 가능하게 했을 것입니다. 하지만 저는 귀찮아서 하지 않았습니다. :y
물론, 신경망은 이미 여러분의 도움 없이도 캐릭터를 벗기는 법을 알고 있습니다. 특이한 반점 같은 요소가 아니라면, 가슴을 벗겨 그리는 법을 가르칠 필요는 없습니다. 생성 결과를 일관되게 얻으려면 동일한 프롬프트를 사용해야 한다는 점을 기억하세요—즉, 모든 고유한 특징은 생성 과정에서 토큰의 일부가 됩니다. 그리고 토큰은 보통 무한하지 않습니다. 아니면 제가 뭔가 놓치고 있는 걸까요? 100–200단어로 생성하는 데 실제로 문제가 없는지도 모르겠습니다.
























