LoRa 모델 개선사항: 태그 사용자 정의
제가 만든 LoRa 모델은 _Ragnarok Online_의 스프라이트를 잘 재현하지만, 특히 트레이닝을 위한 태그 사용자 정의 측면에서 개선할 여지가 여러 군데 존재합니다. 태그를 조정하고 최적화하면 스타일에 대한 모델의 이해도가 향상되고 생성 결과의 정확도도 높아집니다. 아래는 프로세스를 개선하기 위한 몇 가지 아이디어입니다:
1. 사용자 정의 태그 사용(Tagging)
기본 태그에만 의존하지 않고, 각 스프라이트 또는 이미지 세트에 대해 더 구체적인 태그를 생성할 수 있습니다. WD 1.4 Tagger와 같은 도구를 사용하면 더 세부적인 태그를 생성할 수 있으며, 이는 모델이 어떤 요소를 포함하거나 강조해야 하는지에 대한 더 많은 맥락을 제공합니다. 다음은 몇 가지 제안입니다:
구체적인 시각적 특징: 예를 들어, 머리카락 색상, 갑옷 유형, 캐릭터가 들고 있는 무기 및 기타 중요한 액세서리를 상세히 기술합니다.
포즈 및 시점: 캐릭터가 정지 상태, 전투 중, 걷는 중, 또는 공격 자세에 있는지 구분합니다.
스프라이트 스타일: 픽셀 크기, 색상 체계, 고전적 스프라이트인지 수정된 스프라이트인지 등을 태그로 명시합니다.
2. 이미지를 카테고리별로 분할
다른 핵심 개선점은 이미지 세트를 _Ragnarok Online_의 캐릭터 클래스 및 유형에 따라 하위 그룹으로 분할하고, 각 그룹에 특정 태그를 부여하는 것입니다. 이를 통해 모델이 다음과 같은 클래스 간 스타일 차이를 보다 정확하게 학습할 수 있습니다:
물리적 클래스: 소드맨, 나이트, 암살자 등
마법적 클래스: 위자드, 프리스트, 설지
혼합 클래스: 헌터, 로그
각 그룹은 “근접전”, “마법”, “사거리”와 같은 추가 태그를 사용하여 모델의 학습을 더 잘 안내할 수 있습니다.
3. 애니메이션 세부사항에 따른 태그 조정
애니메이션 세부사항(걷기, 공격 등)의 정확도를 높이기 위해, 각 스프라이트 프레임을 그 움직임 시퀀스에 따라 태그할 수 있습니다:
Idle(정지): 캐릭터가 아무 동작도 하지 않을 때
Walk(걷기): 다리, 팔, 머리 회전 위치를 구분하여 기술
Attack(공격): 공격의 다양한 단계, 방향, 무기 사용 방법을 상세히 설명
4. 스크립트를 통한 태그 자동화
대규모 데이터셋을 처리할 경우 태그 프로세스를 자동화하는 스크립트를 사용하는 것이 좋습니다. BLIP 또는 DeepBooru와 같은 도구는 이미지에서 발견되는 패턴을 기반으로 태그를 제안하여 작업을 간소화합니다.
5. 트레이닝 파라미터 조정
마지막으로, 이미지 유형과 태그 수에 따라 트레이닝 파라미터를 맞춤 조정하여 태그를 최적화하세요. 고려해야 할 몇 가지 요소:
Epoch 및 반복 횟수: 많은 태그를 가진 복잡한 데이터셋의 경우, epoch 수나 이미지당 반복 횟수를 증가시키는 것을 고려하세요.
부정 태그 사용: 특정 특징이 나타나지 않도록 하려면, 모델이 이를 무시하도록 도와주는 부정 태그를 추가하세요.