Pixel Art Style (illustrious by Skormino)

Skormino

2.4K

20.3K

pixel art pixel style 8-bit

v7.05 🔨v6.3🔮v5.0🔍🔥v4.0 v3 v2.0 v3.1 (test)v1 test

세부 정보

파일 다운로드

이 버전에 대해

버전 7.05

사용 권장 사항:

여전히 ComfyUI에서 사용자 정의 노드를 사용하는 것을 추천합니다. 이 방식이 올바른 접근이라고 생각합니다. 내 사용자 정의 노드 사용 방법

모델: Plant Milk Model Suite Walnut | indexed v1
CFG: 3–4
스텝: 28+
샘플러: Euler | EulerA
스케줄러: Simple | sgm_uniform

내 트리거 단어 이후에 프롬프트를 작성하세요: masterpiece, pixpix, 8-bit, pixel_art

품질 태그를 너무 많이 추가하지 마세요. 이 태그들은 보통 부드러운 이미지용이지만, 픽셀은 본질적으로 사각형입니다. 품질 태그를 너무 많이 추가하면 무슨 일이 일어나는지 아십니까?

VAE:

일반적으로 베이크된 VAE를 사용했지만, Comfy를 업데이트한 후에는 사용 가능한 첫 번째 VAE인 lunaXLILNAIVAE_luna를 사용할 수밖에 없습니다. 원한다고 해도 이것이 어떤 차이를 만드는지 확인할 수 없습니다.

VAE에 대해 말하자면, 최근 SDXL 기반의 VAE를 발견했습니다. 결과는 놀라울 정도로 좋았지만, SDXL 자체는 오래되었고, 그 VAE는 내 LoRA와 충돌합니다. 제가 직접 VAE를 학습하고 싶습니다. 여섯 명 정도가 하드웨어를 지원해 주겠다고 제안했지만, 항상 뭔가 문제가 생겨 외부 장비로는 아직 아무것도 할 수 없었습니다.

제 데이터로 학습된 VAE가 LoRA보다 더 나은 결과를 만들어낼 수 있다고 확신합니다.

지난 몇 달간 이 일을 다시 시작하지 못했습니다. 게으름이 저를 압도하고 있습니다.

테스트 모델:

72장의 이미지를 사용했습니다(이미지 중 어느 것도 이전 학습에 포함되지 않았으므로, 다른 버전과 분명한 차이가 있어야 합니다).

이 버전은 흥미로운 가로 풍경과 독특한 캐릭터를 생성한다는 점이 마음에 듭니다. 소녀들의 눈에 때때로 문제가 발생하지만, 이유를 알고 있습니다. 분명히 데이터셋 문제입니다. 이를 해결하려면 완전히 새로운 모델을 만들어야 합니다.

지난 세 달 동안 저는 심각한 무기력에 시달렸지만, 몇 가지 기술적 진실을 깨달았습니다. 예를 들어, 데이터셋에 하나라도 품질이 의심스러운 이미지가 포함되면, 다른 모든 완벽한 이미지들은 거의 긍정적인 효과를 내지 못한다는 것을 알고 계셨나요? 나쁜 것이 좋은 것을 끌어내립니다. 신경망은 본 것을 절대 잊지 않으며, 의심스러운 것이 있다면 매번 생성에 나타납니다. 따라서 우리가 좋은 이미지처럼 보이는 것을 가지고 있다고 할지라도, 일부 예술가가 의도적으로 그린 것들이 매번 나타나는 아티팩트가 되기 때문에 평범한 결과를 얻게 됩니다.

데이터셋이 클수록 위험도 증가합니다. 학습 중에 이미지에 숨겨진 결함이 무엇인지 전혀 알 수 없습니다. 그러나 이미지의 수는 어떤 것을 그릴 수 있는 방식의 다양성을 결정합니다. 저는 계속 철학적 사고를 펼칠 수 있지만, 여기서 멈추겠습니다.

그런데, 푸니 버전을 출시하려 했습니다. 흥미로운 결과를 만들어내지만, 푸니는 일러스트리어스보다 훨씬 더 큰 데이터셋이 필요할 가능성이 높으므로, 데이터셋이 정말 뛰어날 때까지 기다리겠습니다.

여기까지 읽어주셔서 감사합니다.

제 Telegram 채널을 홍보하고 싶습니다: t.me/pip_inastall_r

제 작업을 알아주는 분들과 소통하고 싶습니다. 그렇다면 편리한 메신저가 최고의 장소가 아니겠습니까? 사람들이 가입하면 다양한 자료를 자주 공유하겠습니다—심지어 데이터셋도(관심이 충분히 크다면).

모델 설명

변경 사항

버전 7.05 🔨

사용 권장 사항:

여전히 ComfyUI에서 사용자 정의 노드를 사용하는 것을 권장합니다—이것이 올바른 접근법이라고 믿습니다. 사용자 정의 노드 사용 방법

모델: Plant Milk Model Suite Walnut | 인덱스 v1
CFG: 3–4
단계: 28+
샘플러: Euler | EulerA
스케줄러: Simple | sgm_uniform

내 트리거 단어 뒤에 프롬프트를 작성하세요: masterpiece, pixpix, 8-bit, pixel_art

품질 태그를 너무 많이 추가하지 마세요—이 태그들은 일반적으로 매끄러운 이미지용으로 설계되었지만, 픽셀은 본질적으로 정사각형입니다. 품질 태그를 너무 많이 추가하면 어떤 일이 일어나는지 아십니까?

VAE:

보통 내장 VAE를 사용했지만, Comfy를 업데이트한 후에는 사용 가능한 첫 번째 VAE를 사용할 수밖에 없었습니다. 그 VAE는 lunaXLILNAIVAE_luna였습니다. 저라도 확인하고 싶지만, 이게 차이를 만드는지 알 수 없습니다.

VAE에 대해 말하자면, 최근 SDXL 기반의 VAE를 발견했습니다. 결과가 놀라울 정도로 좋았지만, SDXL 자체는 오래되었고, 그 VAE는 제 LoRA와 충돌합니다. 제가 직접 VAE를 학습하고 싶습니다—여섯 명이 하드웨어를 제공해 주겠다고 했지만, 항상 뭔가 문제가 생겨서 외부 장비로 아무것도 할 수 없었습니다.

제 데이터로 학습한 VAE가 LoRA보다 더 나은 결과를 만들어낼 수 있을 것이라 확신합니다.

이제까지 이 작업을 다시 시작하지 못했습니다. 게으름이 저를 조르고 있습니다.

테스트 모델:

72장의 이미지를 사용했습니다(이미지 중 하나도 이전 학습에 사용되지 않았으므로, 다른 버전들과 분명한 차이가 있어야 합니다).

이 버전은 흥미로운 가로 풍경과 이례적인 캐릭터를 생성한다는 점이 마음에 듭니다. 소녀들의 눈에 가끔 문제가 생기지만, 이유를 알고 있습니다—명백히 데이터셋 문제입니다. 이 문제를 해결하려면 완전히 새로운 모델을 만들어야 합니다.

지난 세 달 동안 심각한 무기력에 시달렸지만, 몇 가지 기술적 진실을 깨달았습니다. 예를 들어, 데이터셋에 단 한 장이라도 품질이 의심스러운 이미지가 포함되면, 나머지 완벽한 이미지들은 거의 긍정적인 효과를 발휘하지 못한다는 것을 아십니까? 나쁜 이미지가 좋은 이미지를 끌어내립니다. 신경망은 본 것이 무엇인지 절대 잊지 않으며, 의심스러운 요소가 있다면 매번 생성 과정에 등장합니다. 따라서 보이는 대로 좋은 이미지가 있더라도, 일부 예술가가 의도적으로 그린 요소가 매번 생성되는 아티팩트로 나타나기 때문에 중간 정도의 결과만 나오게 됩니다.

데이터셋이 클수록 위험도 커집니다. 학습 중에 이미지에 숨겨진 결함이 무엇인지 알 수 없습니다. 그러나 이미지 수는 어떤 것을 그릴 수 있는 다양성을 결정합니다. 저는 이 주제를 끝없이 철학적으로 설명할 수 있지만, 여기서 멈추겠습니다.

그런데, Pony용 버전을 출시하고 싶었습니다—흥미로운 결과를 만들어내지만, Pony는 Illustrious보다 훨씬 더 큰 데이터셋이 필요할 것 같습니다. 그러니 데이터셋이 진정으로 인상적이 될 때까지 기다리겠습니다.

이까지 읽어주셔서 감사합니다.

이 기회를 이용해 제 Telegram 채널을 홍보하고 싶습니다: t.me/pip_inastall_r

제 작업을 평가해 주는 분들과 소통하고 싶습니다. 더 나은 곳은 편리한 메신저가 있을까요? 사람들이 가입하면, 다양한 자료를 자주 공유할 예정입니다—심지어 데이터셋도(충분한 관심이 있다면).

작은 이미지를 만들어보세요—결과가 저에게는 훌륭합니다.

버전 6.3

이 버전은 v4와 v5 데이터셋을 사용해 학습했습니다. 그러나 가장 중요한 것은 저 자신에게 새로운 것을 배우고 싶었다는 것입니다. 평소처럼 12 에포크와 1회 반복 대신, 반대로 1 에포크와 12번 반복을 했습니다. 개인적으로 결과가 만족스러웠습니다—에포크의 일반화는 개선되지 않았고, 최종 출력물은 데이터셋의 사본처럼 보이지 않았습니다. 데이터셋은 단지 723장의 이미지였습니다.

혹시 모르니 생성 시 제 파라미터를 사용하는 것을 권장합니다: Euler_a, simple, 체크포인트: PlantMilkSuite_walnut. 단계 수는 선택 사항이지만, 보통 많을수록 더 좋습니다. 하지만 저에게는 26단계가 충분합니다. CFG는 모델에 따라 다를 수 있지만, 제 가장 좋아하는 모델에서는 CFG 4가 가장 좋습니다. 자체 LoRA를 추가하고 싶다면 두 번 생각하세요—그 LoRA는 어떤 종류의 스무딩을 사용해 학습되었나요? 픽셀은 흐림의 압력 아래 사라질 수 있습니다. 픽셀을 파괴하는 LoRA는 피하는 것이 가장 좋습니다.

또한, 어떤 체크포인트든 LoRA를 활성화할 수 있지만, 제가 접한 대부분의 LoRA는 제 모델과 잘 작동하지 않습니다. 이를 기억해 주세요.

불행히도, 프롬프트에 아티스트 태그를 사용하는 분들에게는 그 태그가 이미지 흐림을 유발할 가능성이 있습니다. 가장 좋은 해결책은 아티스트 태그를 아예 사용하지 않는 것입니다. 프롬프트에 대한 제 권장 사항: **"pixpix, 8-bit, pixel_art"**로 시작하고 **"masterprice"**로 끝내세요—이렇게 하면 이미지가 선명하게 유지되고 픽셀은 사라지지 않습니다.

이제 저에게 좀 더 민감한 주제로 넘어가겠습니다. CivitAI 통계를 보면 제 모델이 효모처럼 성장하고 있는 것 같습니다. 구현과 개발에 대해 많은 아이디어가 있지만, 이제 몇 가지 세부 사항을 설명하겠습니다.

첫째, 속도 부족으로 미칠 것 같습니다. 그래서 혹시 컴퓨팅 자원을 제공하고 싶으신 분은 저에게 메시지를 주세요—모든 분께 답변드립니다.

둘째, 학습에 사용할 여러 기본 모델을 테스트했습니다. 믿으세요, Illustrious는 픽셀 아트에 가장 적합한 모델이 아닙니다. SDXL, PONY, Illustrious를 모두 시도해 보았고, 다음과 같은 결론을 얻었습니다:

Pony는 흥미로운 케이스입니다—세계를 이해하는 방식이 완벽하지 않을 수 있지만, 예술적 출력은 인상적이고, 자료를 매우 잘 흡수합니다. Pony는 게임 개발 영역과 가장 가까운 모델입니다. 이 점은 매우 중요합니다. 물론, Pony는 NSFW 콘텐츠에서 Illustrious에는 훨씬 뒤떨어집니다. Illustrious는 애니메이션과 캐릭터를 잘 이해하지만, 배경은 Pony보다 약합니다.
SDXL은요? 저에게는 무엇을 해야 할지 전혀 모르겠습니다. 너무 복잡해서 솔직히 어떻게 써야 할지 모르겠습니다. 그냥 재미로 업로드할 수도 있겠네요—자신들께서 직접 시도해 보세요.

그런데, 혹시 제 LoRA를 사용해 작업물을 공개해 주신다면 정말 감사하겠습니다. 저에게는 중요합니다—함께 어떤 성과를 내고 있는지 볼 수 있기 때문입니다. 저 혼자 좋은 결과를 내는 것과 여러분이 좋은 결과를 내는 것은 다릅니다. 하지만 절반 정도는 생성 결과가 별로 좋지 않습니다. 혹시 제가 생성한 결과 중 상위 10%만 공개하기 때문일까요? 모르겠네요.

이 학습에는 "게임 그래픽용으로 학습한다"는 특정 목표가 없었습니다. 단지 픽셀 아트의 본질을 일반화하기 위해 이미지들을 섞어 보고 싶었을 뿐입니다. 그런데 이 주제는 제가 예상했던 것보다 훨씬 더 멀리 나아갔습니다. 제 이해가 AI 생성 픽셀 아트의 전체 문제를 해결할 수 있을 것 같지만, 제가 전에 말했듯이, 절망에서 벗어나기에는 하드웨어가 부족합니다.

제 현재의 모델은 단지 한 번 우연히 친구로부터 약 20,000의 buzz를 사서 가능하게 되었습니다. 그래서 지금은 모든 모델을 CivitAI에서 학습하고 있지만, 가장 작은 학습조차 500 buzz가 들며 비쌉니다. 그리고 제가 테스트하고 싶은 것이 너무 많습니다.

가장 슬픈 부분은 사이트에 학습용으로 1,000장 이상의 이미지를 업로드할 수 없다는 것입니다. 이를 해결하려면 로컬 학습으로 전환해야 합니다. 그래서 혹시 도와주고 싶은 분이 있다면 저에게 메시지를 주세요. 혹시 여러분을 통해 학습할 수 있을지도 모르겠습니다.

모델 아래에 꼭 댓글을 남겨주세요—제게 중요합니다. 특히 현재 모델에 대한 비판적 피드백을 기다립니다.

누군가가 ComfyUI용 사용자 정의 노드를 제게 링크로 보내주었습니다. 그 도구를 시도해 보았는데, 제가 사용하는 것보다 자원을 더 많이 소모하지만, 기술적으로 더 많은 기능을 제공합니다—그 대신 설정이 훨씬 복잡합니다. 저는 이 영역에서 선택할 수 있는 노드들이 매우 다양하다고 생각하며, 기성품에만 제한될 필요가 없다고 봅니다. 예를 들어, 저는 실험을 즐기고 가끔 GPT 채팅을 사용해 제 도구를 만들기도 합니다. 이는 정리나 자동화 작업에 매우 도움이 됩니다. 핵심은 그 뒤에 있는 알고리즘을 이해하는 것입니다.
https://github.com/HSDHCdev/ComfyUI-AI-Pixel-Art-Enhancer/tree/main

아래는 오래된 버전을 사용하시는 분들께 이론적으로 유용할 수 있는 많은 정보입니다. 혹시 모를 일에 대비해, 일부분은 낡은 자료처럼 보일지라도 기록으로 남겨두고 싶었습니다.

제 모델이 잘 작동하지 않는다면, 여러 원인이 있을 수 있습니다—선택한 모델, ComfyUI에서 잘못 구성된 설정, 또는 깨진 Forge/Automatic 설치 등입니다. 부정적인 리뷰를 남기기 전에, 적어도 컴퓨터를 재시동해 보시기 바랍니다. 믿기지 않겠지만, 이 방법은 한 번 저에게 VAE 디코딩 문제를 해결해 주었습니다.

구체적이고 심각한 문제가 생겼다면, 댓글에 꼭 말씀해 주세요. 어떤 문제도 해결할 수 있습니다. 또한, 프롬프트와 네거티브 프롬프트가 결과에 결정적인 영향을 줄 수 있습니다.

심지어 생성 결과 이미지를 모델 아래에 직접 업로드해 주세요. 그러면 제가 여러분의 결과가 얼마나 실망스러운지 확인할 수 있습니다. 다행히 CivitAI는 이미지를 다운로드하고 전체 워크플로우를 공유할 수 있도록 해 주므로, 문제가 진단될 수도 있습니다. 저는 약간 강박증에 걸린 상태라 매일 제 모델 페이지를 확인하며 진행 상황을 살펴봅니다.

버전 5.0

죄송하지만, 저는 진심으로 이 삶을 사는 게 너무 게으릅니다. 말해드리자면, 올린 모든 작품은 WD TAGGER 노드를 사용해 만들었습니다.

많은 이야기를 드릴 게 있습니다. 적어도, 픽셀 아트에 특화된 사용자 정의 노드를 제가 직접 만들었습니다. 이 노드는 ComfyUI에서 픽셀화 작업에 완벽하게 도움이 됩니다(물론, 제 노드는 색상 수를 바꾸지 않지만, 필요시 후처리를 직접 설정하실 수 있습니다).

아까 잊은 말을 해야겠네요: pixpix, 8-bit, pixel_art 이 세 가지 트리거 단어를 모두 사용해 주세요.

이 단어들을 사용하지 않으면, LoRA가 전혀 작동하지 않을 수 있습니다.

노드 링크를 여기에 남기겠습니다: https://civitai.com/articles/17203

간단함 때문에 이 도구가 필수적일 것이라 확신합니다.

저는 PlantMilkSuite_walnut 모델을 사랑합니다.

Euler_a 샘플러와 simple 스케줄러를 추천드립니다.

하지만 진짜로 끓어오르고 있는 것이 있습니다…

LoRA 방식으로 픽셀 아트를 학습하는 것은 모델의 작은 부분만 다루는 것과 같습니다. 제가 모델의 이해를 바꾸지 않습니다. 제가 제시한 많은 결과가 흥미로워 보일 수 있지만, 모델은 여전히 자신의 지식만 알고 있으며, 이런 학습에서는 픽셀이 불필요한 요소들을 완전히 대체하지 못합니다. 모델의 기본 지식의 잔재가 너무 많아서 눈에 원과 선을 그려, 픽셀 아트보다 눈처럼 보이게 하려고 합니다. 일반적으로 설명하기 어렵지만, 제 상황의 핵심은 다음과 같습니다:

수천 장의 이미지 데이터셋을 수작업으로 정리해야 합니다. 하지만 이 작업을 끝낸다고 해도, 항상 CivitAI에서 학습해왔고, 이 사이트는 1,000장 이상의 이미지를 업로드할 수 없다는 사실을 무시할 수 없습니다. 기술적으로 저를 구원할 수 있는 유일한 방법은 로컬 학습 또는 서버 대여 학습인데, 저는 겨우 열정과 고집으로만 작동하는 가련한 사람입니다. 이해를 돕기 위해, 저는 AMD RX 6750(12GB VRAM)을 가지고 있습니다. 이미지 한 장 생성에 1분에서 2분 30초가 걸립니다. 이런 장비로도 로컬 학습을 시도하고 있지만, 결과를 얻으려면 하드웨어 업그레이드가 유일한 해법일 것이라고 걱정합니다.

솔직히 학습 주제를 깊이 들어가다 보니, 정말 흥미로운 사실들을 많이 알게 되었습니다. 예를 들어, "파인튜닝"이라는 학습 방법이 있습니다. 저는 이 방법을 이용할 수 없지만, 하드웨어를 확보한다면, 이런 강력한 도구를 배우는 데 도움을 줄 수 있는 사람들을 찾을 수 있을 것이라 믿습니다. 만약 그럴 수 있다면, 모델의 모든 블록, 레이어, 픽셀을 다시 학습할 수 있다면, 전 세계 사람들이 사용할 수 있는 더 위대하고 더 나은 무언가를 만들 수 있을 것입니다.

이런 말은 굳이 하지 말아야 할지도 모르지만, 'Retro Diffusion'이라는 것이 있습니다. 이에 대해 제가 할 말은 단 하나입니다—Aseprite용 플러그인이 있고, 제가 꿈꿀 수도 없는 다양한 기능과 트릭이 있습니다. 제가 말하고 싶은 건 단지, 이 도구의 서비스가 엄청나게 비싸다는 것입니다(65달러?!). 얼마나 많은 시간과 정신적 에너지를 쏟아붓든, 저는 먼저 제 과거의 저를 도와주고 싶습니다. 저는 단지 픽셀 그래픽으로 게임을 만들고 싶었기 때문에 신경망에 발을 들였습니다. 지금은 학습을 하고, 현재의 제한 내에서 어떻게 구멍을 이용할지 생각하며, 결국에는 충분한 돈을 벌어 새 하드웨어를 구입한다면(제가 땀과 눈물로 벌어들인 돈으로), 누구보다 더 나은 결과를 낼 수 있을 것이라 확신합니다.

참고로, 이 버전의 학습에는 완전히 새 이미지 257장만 사용했고, 이는 다른 버전들과 큰 차이를 만들어 줄 것입니다. 또한, Alpha와 Dim을 64로 설정했기 때문에 LoRA 자체가 강력해야 합니다.

위에 언급한 것 외에도, CivitAI 내에서 학습 비용을 극도로 낮추는 방법을 스스로 발견했습니다. 그래서 이 모델은 제게 특히 중요했습니다. 필요한 것은 이미지를 1984 이하로 자르는 것뿐이었습니다.

실험을 두려워하지 마세요; 저는 가끔 낮은 영향 수준에서 무작위 LoRA 모델을 테스트합니다. 0.1에서 0.3 사이의 값은 픽셀 이미지에 크게 방해가 되지 않으면서도 이미지에 필요한 분위기를 더해줄 수 있습니다.

그런데 버전 4에서는 아티스트 이름과 관련된 태그가 잘 작동한다고 들었습니다. 버전 5 이상에서 이 문제가 발생한다면 사과드립니다. 저는 이런 기능에 대해 한 번도 생각해본 적 없고, 기술적으로도 어떻게 사용하는지 완전히 이해하지 못합니다.

Forge 및 Automatic 사용자분들께 공감드립니다. 왜냐하면 제가 여러분께 드릴 말이 전혀 없기 때문입니다. 저는 이러한 인터페이스를 사용할 수 없으므로, 여러분을 위한 추천 사항은 제공하지 못합니다.

설명이 어지러워서 죄송합니다. 정리할 만큼 피곤해서요. 아래의 오래된 노트들은 여전히 이전 버전을 사용 중이라면 도움이 될 수 있습니다.
------------------------------------------------------------------------------------------------------

8비트 토큰으로 생성을 시도해 보는 것을 강력히 추천합니다. 제 머릿속에서는 뭔가 이상하다고 느껴졌지만, 사실 이 방법은 생성에 도움이 됩니다. 그러나 여기서 중요한 질문은 your 목표와 이런 그래픽이 정말 필요한지 여부입니다.

다음 값들에서 결과가 매우 만족스러웠습니다:
euler_a

sgm_uniform

step: 36

모델: PlantMilkSuite_walnut OR WAI-NSFW-illustrious-SDXL

학습 데이터셋은 각 픽셀이 8x8인 아트워크로 구성되었습니다. 이 점이 중요합니다. "완벽한" 픽셀이 필요하다면, 0.125로 RESIZE한 후, 8.000으로 다시 RESIZE하는 것을 추천합니다. (이 계수에 거부감을 느낀다면, 또는 퍼센티지 조작을 한다면 12.5%로 이해하세요.) 리사이징할 때는 Nearest Neighbor 방법을 사용하세요.

놀랍게도, 이 모델은 픽셀과 관련된 단어 없이도 픽셀을 생성할 수 있습니다. 작동 원리는 이렇습니다: "pixel_art"라는 단어는 모델이 픽셀 아트 방식으로 그리려는 욕구를 자극하지만, 저는 모델에 픽셀 아트를 가르치지 않았습니다. 학습 과정에서 단지 트리거 단어 "pixpix"만 지정했고, 제 개인적으로는 Lora가 제대로 작동하려면 이 단어를 입력할 필요조차 없습니다. Lora가 활성화되어 있기만 해도 충분합니다.

"Pixel_art"와 같은 단어들은 여전히 신경망이 픽셀 아트가 흔히 가지는 윤곽과 제한을 더 쉽게 인식하도록 도와줍니다.

지나친 요구를 드려 죄송합니다. 가능한 한 많은 작품을 내 모델로 생성해 주세요. 댓글을 남겨 주세요. 무엇이 마음에 들지 않는지, 무엇을 더 보고 싶은지 알려주세요. 저는 모든 말씀을 경청하며, 여러분의 모든 작품에 기뻐할 것입니다. 활동해 주셔서 감사합니다. 덕분에 더 많은 테스트 기회를 얻을 수 있습니다.

저는 여러분께 보편적인 도구를 제공하고 싶었습니다. 여러분의 지원이 없다면, 이 도구에 주목을 받기까지 너무 많은 시간과 노력을 들여야 할 것입니다.

다음 계획: 테스트, 테스트, 또 테스트. 다양한 파라미터들이 학습에 유용할 수 있습니다. 아직 학습 자료에서 일어나는 현상을 설명해 보지 못했습니다. 어쩌면 이런 설명이 전혀 필요하지 않아서요.

버전 4.0

이 버전은 488장의 이미지로 구성된 매우 광범위한 데이터셋이 특징입니다. 현재 상태에서도 유용한 결과를 도출할 수 있습니다. 하지만 저는 이 버전을 다른 관점에서 보고 싶었습니다. 이전 정책에서 점진적으로 dim과 alpha 파라미터를 증가시켰던 것과 달리, 이 버전에서는 alpha 32 x dim 48로 변경했습니다. 이 설정으로 모델을 구현하기에 충분한가요? 제가 구체적인 실제 작업을 수행해 본 적이 없기 때문에, 이 질문에 답하기 어렵습니다. 따라서 이번 LORA 모델에서는 저나 여러분을 어떤 식으로도 제한하지 않겠습니다.

버전 3.1

어떤 점들을 확신하고 싶었기 때문에 이 버전이 등장했습니다. 이 버전은 데이터셋이 이전 버전들과 완전히 다르다는 점에서 독특합니다. 스타일도 실제로 다르며, 이는 매우 중요합니다. 그러나 솔직히 말해, 왜 절반의 경우에서 픽셀화가 제대로 작동하지 않고 제가 원하는 수준에 도달하지 못하는지 확신이 서지 않습니다(저는 이 결과를 얻을 수 있을 것이라고 생각했는데, 이번엔 그렇지 않은 것 같습니다). 저의 행동이 얼마나 의미가 있는지는 시간이 지나야 알 수 있을 것입니다. 이 본질적으로 완전히 새로운(그러나 테스트 단계인) 스타일을 함께 평가해 주세요. 참고로, 제가 지정한 모든 트리거 단어를 사용하는 것이 좋습니다. 어쨌든 저는 좋은 결과를 얻었습니다.
왜 3.1로 이름을 지었는가? 다른 버전들보다 덜 진지하게 만들었습니다.

버전 3

데이터셋을 가능한 한 최선으로 수정했습니다. 280장의 이미지를 다루는 것은 쉽지 않았습니다(오류가 충분히 많았습니다). 이 작업의 목표는 모델의 잠재력을 확장하는 것이었습니다. 모델에 더 많은 얼굴을 제공할수록, 반복해서 같은 것을 그리는 확률은 낮아집니다. 그런 다음, 더 많은 작품을 추가하는 것이 좋겠다고 생각했습니다. 나중에 큰 차이를 발견했습니다. Lora의 두 번째 버전은 단순한 픽셀화뿐만 아니라 제한된 팔레트도 포함하고 있었습니다. 버전 3는 이 점에서만 다르지 않습니다. 일부 부분에서는 더 밝고 풍부합니다. 어쨌든 시각적 스타일이 변화했습니다. 여러분이 더 선호하는 스타일을 스스로 결정하세요.

학습 속도를 늦추고, 노이즈 오프셋을 변경하며, dim을 증가시켰지만, alpha는 건드리지 않으려 했습니다. 픽셀이 픽셀화되지 않고 흐릿해지는 문제에 대한 다양한 해결책을 고민 중입니다. 가장 큰 두려움은 제 멘토의 말입니다. 그는 신경망이 이미지에서 1메가픽셀 이상의 정보를 기억하지 못한다고 믿습니다. 그가 맞을 수도 있습니다. 그렇다면 1024x1024보다 작은 작품으로 학습해야 합니다. 1024x1024를 곱하면 1,048,576이 되고, 1메가픽셀은 1,000,000 픽셀입니다. 이 좁은 형식으로 신경망을 제대로 학습시키려면 상당한 노력을 기울여야 합니다. 저는 고품질 픽셀 아트 자료가 많지 않습니다.

CivitAI에서 찾을 수 있는 다른 많은 픽셀 모델들과 달리, 제 모델은 픽셀 아트 준수에 명확한 규칙을 가지고 있습니다. 그러나 안타깝게도 아직 "디더링" 제어를 시도할 힘이 충분하지 않았습니다. 현재로서는 디더링은 자동으로 나타납니다. 저는 이 디더링이 윤곽선의 유무처럼 완벽하게 제어될 수 있다고 확신합니다. 하지만 현재 모델은 윤곽선을 선호합니다.

버전 2

데이터셋을 281장으로 확장했습니다(첫 번째 버전은 약 50장이었습니다). 가능한 생성의 다양성이 크게 증가했지만, 픽셀은 여전히 완벽하지 않습니다. 그리고 아시겠지만? 저는 데이터셋의 모든 이미지를 다시 검토할 계획입니다. 왜냐하면 제 생각에는 문제의 원인이 숨겨진 결함일 수 있기 때문입니다. 한 장의 이미지라도 약간의 그라데이션이나 깨진 픽셀이 있다면, 전체 학습 과정이 망가질 수 있습니다. 그러나 그것보다 더 무서운 점은, 제가 비슷한 "픽셀레이트+" 도구를 찾지 못했다는 것입니다. 예를 들어 paint.net에는 "픽셀레이트+" 효과가 있는데, 거기서의 픽셀화 방법은 이미지가 거의 변경되지 않으면서 완벽하게 픽셀화됩니다. 그리고 저는 아직 Comfy에서 비슷한 도구를 찾지 못해 매우 안타깝습니다. 제가 사용하는 RESIZE 방법을 사용하신다면, 안타깝지만 좋은 소식은 아닙니다—이 방법은 완벽하지 않습니다. 적어도 제 테스트에서는 그렇습니다. 여러분의 환경과 제 환경은 다를 수 있고, 실제로는 여러분에게는 완벽하게 작동할 수도 있습니다.

버전 1 (테스트)

솔직히 말해, 다음 버전에서 달성하고 싶었던 목표와는 약간 달랐습니다.

버전 2의 출시를 기다리세요. 현재 버전보다 훨씬 더 나은 버전입니다.

위의 말에 겁먹지 않았다면, 이 테스트 LORA는 이상하고 과도하게 학습되어 있으며, 텍스트 프롬프트보다 학습된 내용을 더 자주 그린다는 점을 기억하세요.

사용 중에 많은 검은 칼, 이상한 책, 이스터 섬 석상 등을 만날 것이며, 무엇보다도: 지가챠드를 만날 것입니다(여성도 그 얼굴 특징을 얻을 수 있지만, 이는 통제 불가능합니다(아무튼 저는 시도하지 않았습니다)).

모델 유형	LORA
기본 모델	Illustrious
게시일	11/11/2025
학습된 단어	pixpix, 8-bit, pixel_art,