Retro 90's Anime / Golden Boy Style Lora LTX2

세부 정보

파일 다운로드

모델 설명

GoldenBoyStyle 트리거

저는 이것의 완 버전을 만들 때 사용한 LoRA에서 데이터셋을 가져왔습니다. 약 80개의 영상과 368개의 이미지 정도입니다. 완 2.2 버전이 더 나은데, 그 LoRA는 수많은 수정과 오늘에 이르기까지의 시간을 거쳤습니다.

데이터셋이 16fps였기 때문에, AI 툴킷을 16fps로 학습하도록 설정해야 했고, 음성이 모두 높아지는 것을 방지하기 위해 "오디오 정규화"를 사용해야 했습니다. 불행히도 이로 인해 처음 2,000스텝은 사용할 수 없었지만, 가장 좋은 결과는 4,500스텝 범위에서 얻었고, 2,500스텝에서도 괜찮았습니다. 또한 프레임 버킷에 맞추기 위해 일부 클립에 최대 1~3프레임을 패딩했습니다(버킷 크기: 17, 25, 33, 41, 49, 57, 65). 512 및 768 해상도로 학습했습니다.

오디오는 일본어 더빙에서 학습되었습니다(처음 클립을 만들 때 영어 더빙 오디오에서 잘라냈으면 좋았을 텐데요). 하지만 영어로 프롬프트를 입력해도 잘 작동합니다(실제로 영어가 더 자연스럽게 들립니다). 저는 캐릭터 태깅을 사용하지 않았기 때문에 여성 목소리들이 모두 하나로 융합되어, 그래서 목소리가 높게 들리는 것이라고 생각합니다. 높은 목소리가 나오면 시드를 재시도하거나 프롬프트를 수정해 보세요.

다음 LTX 버전(2.1+)이 매우 기대됩니다. 이 기본 모델을 얼마나 확장할 수 있는지에 몇 가지 한계가 있기 때문입니다.

가장 좋은 결과를 얻으려면 매우 길고 상세한 프롬프트를 사용하는 것이 좋습니다(LLM 사용이 최선입니다). 그렇지 않으면 스타일이 트리거되지 않을 수 있습니다. 이 LoRA는 LTX2에서 애니메이션 스타일을 학습하는 데 목적이 있습니다. 진정으로 훌륭한 결과를 얻으려면 25fps의 대규모 비디오 데이터셋이 필요할 것 같습니다. 이는 LTX2에서 완 데이터셋을 사용하기 위한 일종의 임시 방편이며, 최선의 방법은 아닙니다.

저와 유사한 결과를 생성하고 싶다면 제 예제 워크플로우를 사용하세요. LTX2가 가로 영상에 더 잘 맞기 때문에 가로 영상 작업을 권장합니다. 여기서 이전 또는 이후 체크포인트를 시도해 볼 수 있습니다

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.