Floating Heads HiDream

세부 정보

모델 설명

부유하는 머리 HiDream

부유하는 머리 HiDream LoRA는 LyCORIS 기반으로, 스타일리시하고 인물 중심의 3D 흉상 렌더링을 통해 학습되었습니다. 저는 Sora 탐색 페이지에서 발견한 트렌디한 프롬프트를 학습 대상으로 삼아보자는 아이디어를 떠올렸습니다. 이 모델의 목적은 정밀한 프레임으로 머리와 목을 격리하고, 자연스러운 액세서리, 세부적인 얼굴 구조, 부드러운 스튜디오 조명을 강조하는 것입니다.

갤러리의 첫 번째 이미지에 포함된 워크플로우를 사용할 경우 결과는 1760x2264 픽셀입니다. 이 워크플로우는 대량 생산보다 시각적 풍부함, 일관성, 품질을 우선시합니다.

결과물은 일반적으로 매우 깨끗하고 선명하며 세부 정보가 풍부하고, 캐릭터 배치가 일관되며 조명 행동이 예측 가능합니다. 이 모델은 표현력 풍부한 캐릭터 디자인, 에디토리얼 자산, 혹은 고품질 얼굴 렌더링이 필요한 모든 프로젝트에 최적입니다. img2vid, LivePortrait 또는 립싱크에 완벽하게 활용 가능합니다.


워크플로우 노트

갤러리의 첫 번째 이미지에는 여러 스케줄러 및 샘플러를 순차적으로 사용하여 얼굴 구조, 액세서리 선명도, 텍스처 품질을 극대화하는 멀티패스 워크플로우가 내장되어 있습니다. 갤러리의 모든 이미지는 이 프로세스를 통해 생성되었습니다. LoRA는 이 워크플로우를 명시적으로 위해 학습된 것은 아니지만, 저는 모델과 멀티패스 방식을 병행하여 개발했기 때문에 싱글패스 설정에서는 충분히 테스트하지 않았습니다. 마지막 패스의 CFG 값은 2로 설정되어 있으며, 이는 주름과 모공과 같은 디테일을 더 선명하게 만듭니다. 출력이 지나치게 날카롭게 보인다면 CFG를 1로 낮추십시오.

이 프로세스는 빠르지 않습니다 — RTX 4090에서 모든 3개의 패스에 대해 약 300초의 디퓨전 시간이 소요됩니다(가끔 두 번째 패스만으로도 충분한 디테일이 나옵니다). 저는 아직 추론 시간을 줄이는 방법을 탐색 중이며, 원하는 결과를 얻기 위해 설정을 자유롭게 조정하셔도 좋습니다. 만약 더 나은 설정을 발견하셨다면, 다른 사용자들이 시도할 수 있도록 댓글에 공유해 주세요.

이 프로세스가 느리다는 점을 더 이상 말씀하지 않으셔도 됩니다. (3개 패스 모두 300초가 소요된다는 점을 이미 예상하셔야 합니다.)


트리거 단어:

h3adfl0at, 3D floating head

권장 강도: 0.5–0.6

권장 시프트: 5.0–6.0


버전 노트

v1: 다양한 연령대, 얼굴 구조, 인종에 걸친 머리-목만 포함된 이미지에 초점을 맞춘 학습. 주체 다양성(연령, 인종, 성별)이 뛰어나며 스타일이 일관됨.

v2 (진행 중): v1의 결과물을 v2에 통합하여 더 높은 일관성을 확보할 계획입니다.


학습 사양

  • 3,000 스텝 학습, 2e-4 학습률로 2회 반복 (SimpleTuner 사용, 약 3시간 소요)

  • 71개의 생성된 시뮬레이션 이미지로 구성된 데이터셋 (1024x1024 해상도)

  • 학습 및 추론은 RTX 4090 24GB에서 수행

  • 캡셔닝: Joy Caption Batch (128 토큰)


이 LoRA는 HiDream Full과 함께 SimpleTuner로 학습되었으며, 추론은 ComfyUI에서 HiDream Dev 모델을 사용하여 실행되었습니다.

이 모델의 품질에 감명받으셨거나, 이와 유사한 향후 LoRA 개발을 지원하고 싶으시다면, 아래 링크를 통해 기여해 주세요:
🔗 https://ko-fi.com/renderartist
🔗 renderartist.com

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.