(Project Sekai) Momoi Airi F.1 Dev LoRA Model

세부 정보

파일 다운로드

모델 설명

모모이 아이리 F.1 Dev LoRA 모델

기반 모델 FLUX.1 Dev를 기반으로 한 LoRA 모델입니다.

저는 트레이닝에 두 가지 유형의 이미지를 사용했습니다: 카드(투명하지 않음)와 컷아웃(투명함). 따라서 배경은 단일 색상이 되며, 유연하지 않을 것이라 생각합니다. 그래서 배경을 자유롭게 조절할 수 있을 것이라 생각합니다.

사용 방법

LoRA는 단일 단어 'momoi airi'로 트리거할 수 있습니다. 그러나 캐릭터 특성을 정확히 구현하기 위해, 우선 프롬프트에 'momoi airi, long hair, pink eyes, pink hair'를 포함시키는 것을 권장합니다. (nunchaku 워크플로우를 사용하신다면, 이所谓的 트리거 단어조차 필요하지 않습니다.) 또한, Danbooru 데이터셋의 태그만 사용하는 것이 좋습니다.

저는 LoRA의 가중치를 1.25로 테스트해보았고, 더 낮은 값으로도 정상적인 결과가 나오는지 확신할 수 없습니다. (자신이 직접 테스트해보시고 댓글로 알려주시면 감사하겠습니다.)

nunchaku를 사용한 테스트 결과,

LoRA 가중치를 1로 설정해도 사용 가능하며, 프롬프트에 LoRA 파일 이름을 명시할 필요가 없습니다.

캐릭터 소개

Sekaipedia


몇 가지 기본 트레이닝 파라미터

학습 자료는 주로 캐릭터 카드 이미지(Cards + Cutouts)로 구성되었으며, Cutouts는 투명하지만 Cards는 투명하지 않습니다.

트레이닝 스크립트는 sd-scripts의 SD3 분기 버전을 직접 사용했으며, fluxgym의 스크립트를 참고하여 수작업으로 스크립트 및 데이터 설정을 구성했습니다.

제 노트북 사양이 낮아 트레이닝 효율이 떨어지며, 지금까지 avr_loss를 효과적으로 낮출 방법을 찾지 못했습니다 (step 수를 늘리면 가능하지만 시간이 더 많이 소요됨).

이 LoRA를 어떻게 사용하나요?

SD 1.5 LoRA를 사용하는 것과 동일하게, FLUX.1 Dev 베이스 모델을 사용하고, 트리거 단어 'momoi airi'로 LoRA를 활성화하세요 (작은 팁: nunchaku 워크플로우를 저와 동일하게 사용하신다면, 이所谓的 트리거 단어조차 필요 없으며, 캐릭터의 주요 특징만 작성하면 됩니다). 가중치는 기본값 1을 사용하시면 됩니다. 물론, 캐릭터의 기본 특징이 정확히 트리거되도록 'momoi airi, long hair, pink eyes, pink hair' 등의 특징어를 추가하는 것을 권장합니다. (이번 트레이닝에서는 일부 태그를 제거하여 캐릭터의 기본 특징을 고정하는 방식으로 전략을 변경했습니다.) 가능한 한 DeepBooru 어휘집의 단어만 사용하세요.

직면한 도전

이 LoRA는 새로운 캐릭터에 대한 학습만으로 이루어져, 사지 등의 세부 부분에서 여전히 큰 한계가 있습니다. 안타깝게도, F.1은 SD 1.5처럼 임시로 관절 문제를 해결할 수 있는 embeddings를 자유롭게 추가할 수 없습니다. 제 평가로는, 반복적으로 추출하는 수밖에는 없네요 (

(물론, 더 나은 해결책이 있다면 댓글로 알려주시면 정말 감사하겠습니다 x)

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.