FACESITTING HunYuan

세부 정보

파일 다운로드

모델 설명

주요 업데이트: 204년 12월 26일

드디어 이 LORA를 제가 정말로 만족할 수 있을 정도로 완성했습니다. 버전 1.0은 이전에 이곳에 올리지 않았던 수많은 실험 버전들을 거쳐 마침내 도달한 결과입니다. 0.1 버전과 달리, 저는 결국 h100NVL(93GB VRAM GPU)을 빌려 클라우드에서 학습을 진행해야 했습니다.

주요 변경 사항

#1: 데이터셋이 세 배로 늘어나 LORA가 훨씬 더 많은 것을 학습할 수 있게 되었습니다.

#2: LORA는 이전의 512 대신 최대 해상도 2048로 학습되었으며, 이로 인해 훨씬 더 세밀한 얼굴 앉기 장면을 생성할 수 있게 되었습니다.

#3: 0.1 버전보다 훨씬 더 자주 얼굴 앉기 장면을 생성합니다.

이제 저는 이 버전을 1.0으로 레이블링합니다. 지금은 충분히 만족해서 1.0으로 출시할 수 있다고 느끼기 때문입니다. 사실 그 사이에 0.2부터 0.9까지 여러 버전이 있었습니다.

0.2: 0.1과 동일하지만 추가로 2k 스텝을 더 학습했습니다. 약간 나아졌을 뿐이었고, 직접 비교해보면 거의 차이가 없었습니다.

0.3: 추가로 2k 스텝을 학습하면서 학습률을 대폭 높였습니다. 그런데 그 결과 모델이 이상하게 만화 스타일로 흐려졌습니다.

0.4: 처음부터 다시 시작했고, 이번에는 학습률을 2e-5에서 4e-5로 변경했습니다. 이 버전은 6k 스텝 후에 소실되었고, 이전 단계들도 제대로 보이지 않았습니다.

0.5: 학습 데이터를 세 배로 늘리고 학습률을 낮췄습니다. 처음에는 잘 되는 것처럼 보였지만, 결과가 너무 불안정했고 결국 소실되었습니다.

0.6: 다시 처음부터 시작했고, 이번에는 더 큰 데이터셋을 사용하고 학습률을 2e-5로 다시 내렸습니다. 결과는 충분히 좋았고, 이곳에 업로드하려 했지만 약간 흐릿했습니다.

0.7 / 0.8 / 0.9: 해상도에 [2048]을 추가해 [512, 1024, 2048]을 포함하도록 했습니다.

0.7은 학습 중간에 OOM(메모리 부족)으로 4090이 충돌했습니다. 0.8에서는 그래디언트를 증가시켰지만 거의 학습을 하지 못했습니다. 0.9에서는 균형을 찾아 4090에 맞추긴 했지만 너무 느려서 학습에 몇 달이 걸릴 수밖에 없었습니다.

1.0: h100i NVL을 빌려 약 16시간 동안 학습시켰습니다. 2048 해상도로 인해 이 GPU조차 매우 매우 느리게 학습되었습니다. 하지만 최소한 작업은 완료했습니다. 지금 이 글을 쓰는 동안에도 여전히 학습 중입니다. 이후 에포크에서 더 나은 LORA가 나오면 당연히 업로드하겠습니다.


이전에 이 사이트에 아무것도 업로드한 적이 없어서, 일반적인 프로토콜과 맞지 않는 부분이 있다면 양해해 주세요. 이 LORA를 학습한 유일한 이유는, 제가 정말로 원했고, 누군가가 만들기 전까지 기다릴 수 없었기 때문입니다. 수많은 시간이 소요되었고, 그중 상당수는 트레이너가 리눅스에서만 작동하기 때문에 리눅스를 더블 부팅하는 방법을 찾아내는 데 쓰였습니다(현재 윈도우 호환 트레이너가 있는지 여부는 잘 모르겠습니다).

이것은 제가 계속 개선하여 완벽하게 만들고 싶은 LORA의 매우 매우 초기 베타 버전입니다. 그러나 초기 단계임에도 불구하고, 이미 실제 가능성이 충분히 보여서 업로드할 가치가 있다고 생각합니다. 여러분은 A) 가끔 비논리적이거나 신체 공포적인 결과나, B) 얼굴 앉기 장면이 나오지 않는 동영상을 생성할 것을 기대해야 합니다. 하지만 이 LORA가 제대로 작동할 때(제 초기 테스트에서는 꽤 자주 작동했습니다) 그 결과는 정말 놀라울 정도로 멋집니다. (저에게는 말이죠 lol)

제가 가장 잘 작동했던 샘플 프롬프트는 다음과 같습니다:
사무실에서 일하는 매우 아름다운 여성이 남자의 얼굴 위에 앉아 있는, 극히 고화질의 영화 같은 동영상. 여자는 청바지와 흰 티셔츠를 입고 있으며, 갈색 머리카락을 단발머리로 묶고 있다. 남자의 얼굴은 여자의 엉덩이 아래 완전히 가려져 있고, 그녀는 그의 얼굴 위에 앉아 있다. 남자는 숨을 쉬기 어려워하며 머리를 빼려고 애쓰고, 그의 코는 여자의 엉덩이에 눌려 있다. 이 동영상은 매우 붐비는 사무실에서 촬영되었다. 주변 사람들은 남자가 엉덩이 아래에서 질식하는 것을 보고 가리키며 웃고 있다.

이 프롬프트를 그대로 사용하거나, 원하는 외모/옷차림/배경으로 바꿔도 되며, 완전히 바꿔도 상관없습니다. 이상하게도 이 LORA는 4~5초 범위에서 가장 잘 작동하는 것 같습니다. 더 긴 길이에서도 작동할 수 있지만, 이상하게도 6초 이상이 되면 더 이상한 결과가 발생하기 시작합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.