ROSprite

LoRa 모델 개선사항: 태그 사용자 정의

제가 만든 LoRa 모델은 _Ragnarok Online_의 스프라이트를 잘 재현하지만, 특히 트레이닝을 위한 태그 사용자 정의 측면에서 개선할 여지가 여러 군데 존재합니다. 태그를 조정하고 최적화하면 스타일에 대한 모델의 이해도가 향상되고 생성 결과의 정확도도 높아집니다. 아래는 프로세스를 개선하기 위한 몇 가지 아이디어입니다:

1. 사용자 정의 태그 사용(Tagging)

기본 태그에만 의존하지 않고, 각 스프라이트 또는 이미지 세트에 대해 더 구체적인 태그를 생성할 수 있습니다. WD 1.4 Tagger와 같은 도구를 사용하면 더 세부적인 태그를 생성할 수 있으며, 이는 모델이 어떤 요소를 포함하거나 강조해야 하는지에 대한 더 많은 맥락을 제공합니다. 다음은 몇 가지 제안입니다:

구체적인 시각적 특징: 예를 들어, 머리카락 색상, 갑옷 유형, 캐릭터가 들고 있는 무기 및 기타 중요한 액세서리를 상세히 기술합니다.
포즈 및 시점: 캐릭터가 정지 상태, 전투 중, 걷는 중, 또는 공격 자세에 있는지 구분합니다.
스프라이트 스타일: 픽셀 크기, 색상 체계, 고전적 스프라이트인지 수정된 스프라이트인지 등을 태그로 명시합니다.

2. 이미지를 카테고리별로 분할

다른 핵심 개선점은 이미지 세트를 _Ragnarok Online_의 캐릭터 클래스 및 유형에 따라 하위 그룹으로 분할하고, 각 그룹에 특정 태그를 부여하는 것입니다. 이를 통해 모델이 다음과 같은 클래스 간 스타일 차이를 보다 정확하게 학습할 수 있습니다:

물리적 클래스: 소드맨, 나이트, 암살자 등
마법적 클래스: 위자드, 프리스트, 설지
혼합 클래스: 헌터, 로그

각 그룹은 “근접전”, “마법”, “사거리”와 같은 추가 태그를 사용하여 모델의 학습을 더 잘 안내할 수 있습니다.

3. 애니메이션 세부사항에 따른 태그 조정

애니메이션 세부사항(걷기, 공격 등)의 정확도를 높이기 위해, 각 스프라이트 프레임을 그 움직임 시퀀스에 따라 태그할 수 있습니다:

Idle(정지): 캐릭터가 아무 동작도 하지 않을 때
Walk(걷기): 다리, 팔, 머리 회전 위치를 구분하여 기술
Attack(공격): 공격의 다양한 단계, 방향, 무기 사용 방법을 상세히 설명

4. 스크립트를 통한 태그 자동화

대규모 데이터셋을 처리할 경우 태그 프로세스를 자동화하는 스크립트를 사용하는 것이 좋습니다. BLIP 또는 DeepBooru와 같은 도구는 이미지에서 발견되는 패턴을 기반으로 태그를 제안하여 작업을 간소화합니다.

5. 트레이닝 파라미터 조정

마지막으로, 이미지 유형과 태그 수에 따라 트레이닝 파라미터를 맞춤 조정하여 태그를 최적화하세요. 고려해야 할 몇 가지 요소:

Epoch 및 반복 횟수: 많은 태그를 가진 복잡한 데이터셋의 경우, epoch 수나 이미지당 반복 횟수를 증가시키는 것을 고려하세요.
부정 태그 사용: 특정 특징이 나타나지 않도록 하려면, 모델이 이를 무시하도록 도와주는 부정 태그를 추가하세요.

이 LoRa 모델은 게임 _Ragnarok Online_의 캐릭터 스프라이트 고전 스타일을 재현하도록 설계되었습니다. _kohya_ss_의 표준 설정을 사용하여, 이 모델은 게임의 원본 스프라이트에서 총 250장의 이미지로 학습되었습니다. 5에포크, 각 이미지당 3회 반복으로 트레이닝을 조정하여, 게임의 픽셀 아트 풍미에 대한 품질과 정확성의 적절한 균형을 추구했습니다.

어떻게 구현했는가

이미지 수집: _Ragnarok Online_에서 캐릭터 스프라이트 250개를 수집하여 다양한 캐릭터와 클래스를 균형 있게 대표하도록 했습니다.
환경 설정: LoRa 학습을 위해 kohya_ss 리포지토리를 기본 설정 그대로 사용했습니다. 주요 단계는 다음과 같습니다:
- 표준 학습: 고급 설정을 수정하지 않고 기본 학습률과 적절한 배치 크기를 유지했습니다.
- 에포크 수: 효율적인 학습과 정확한 결과를 위해 5에포크로 설정했습니다.
- 반복 횟수: 각 이미지당 3회 반복을 수행하여 픽셀 아트 스타일의 세부 사항을 모델이 잘 학습할 수 있도록 했습니다.
학습: GPU 지원 환경에서 학습을 진행하여 학습 속도와 효율성을 높였으며, 오버피팅 없이 일관된 결과를 얻었습니다.

모델 유형	LORA
기본 모델	SD 1.5
게시일	10/2/2024
학습된 단어	ROSprite

세부 정보

파일 다운로드

이 버전에 대해

모델 설명

어떻게 구현했는가

이 모델로 만든 이미지