Studio Ghibli π₯ HunyuanVideo
μΈλΆ μ 보
νμΌ λ€μ΄λ‘λ
λͺ¨λΈ μ€λͺ
λ©΄μ± μ¬ν
κΈ°λ³Έμ μΈ HunyuanVideoλ LoRA μμ΄λ μΌλ°μ μΈ μ λλ©μ΄μ μ€νμΌμ μ μ΄ν΄νλ©°, μ€νλμ€ μ§λΈλ¦¬μ μμ μ€νμΌμ λν΄ μΌλΆ μ§μμ κ°μ§κ³ μμ΅λλ€. κ·Έλ¬λ μ΄ μ€νμΌμ μΌκ΄λμ§ μμΌλ©°, ν둬ννΈμ λ§€μ° μμ‘΄μ μ΄λ©° κ°λ νμ€μ μΈ μ€νμΌλ‘ λλμκ°λ κ²½μ°κ° μμ΅λλ€. κ·Έλ¦¬κ³ μ °μ΄λ©, νλ νΈ, μ μμ λ μλΉν λ€λ₯Ό μ μμ΅λλ€. κ·Έλμ μ΄ LoRAλ₯Ό λ§λ€λ©°, HunyuanVideoμ μ§λΈλ¦¬ μμ μ€νμΌμ λ κ°ννλ €κ³ μλνμ΅λλ€.
μ΄ LoRAλ μΈ λ²μ§Έ λ²μ μ λλ€. μ΄μ λ λ²μ μ μ±κ³΅νμ§ λͺ»νκ³ , μ λ μ΄λ₯Ό 곡κ°νμ§ μμμ΅λλ€.
μ λ°μ΄νΈ. 2025λ 8μ 1μΌ λΆννλ, μ΄μ λͺ¨λΈμ μμ ν μ¬μ μκ°μ΄ μμ΄ μ΄ λͺ¨λΈμ μ¬νμ΅μ λ μ΄μ κ³νλμ§ μμ΅λλ€.
μ λ°μ΄νΈ. 2025λ 3μ 14μΌ Wan2.1-14B-T2Vμ μΌμ£ΌμΌ λμ ν μ€νΈν κ²°κ³Ό, μ΄ λͺ¨λΈμ΄ HVλ³΄λ€ μ°μν¨μ μΈμ ν΄μΌ ν©λλ€. λ°λΌμ μ λ Wan νμ΅μΌλ‘ μ ννκΈ°λ‘ κ²°μ νκ³ , λ μ΄μ HV λͺ¨λΈμ μΆμν κ³νμ΄ μμ΅λλ€. κ·Έλ¬λ μ λ μμ§λ μ΄ LoRAλ₯Ό μμ±ν μ무λ₯Ό λκ»΄, ν₯ν λ€λ₯Έ κ³νλ Flux/Wan λͺ¨λΈμ λ§μΉ ν, λ¨μ μ΄λ―Έμ§κ° μλ μμμΌλ‘ μ μ ν νμ΅λ Ghibli LoRA μ λ°μ΄νΈλ₯Ό μΆμνκΈ° μν΄ μ΅μ μ λ€νκ² μ΅λλ€.
μ λ°μ΄νΈ. 2025λ 3μ 2μΌ Lumina-2μ Wan-2.1μ λͺ°μ νλ€κ° λ€μ Flux νμ΅μΌλ‘ λμμκ³ , v0.7μ μ½κ° μ°κΈ°λ μμ μ λλ€. νμ§λ§ νμ€ν μΆμν μμ μ΄λ©°(μλ§λ λ λ€λ₯Έ μ λλ©μ΄μ LoRAμ ν¨κ»)μ λλ€.
μ λ°μ΄νΈ. 2025λ 2μ 8μΌ v0.6 λ μ€λ§μ΄μμ΅λλ€. μ λ λͺ κ°μ§ μνν κ²°μ μ λ΄λ Έλλ°, μ΄ κ²°μ λ€μ κ·Έ κ²°κ³Όλ₯Ό μ λΉννμ§ λͺ»νκ³ , RTX 3090μμ 84μκ°μ νμ΅ μκ°μ κ°νμ§ μμμ΅λλ€. v0.7μ κΈ°λν΄ μ£ΌμΈμ! π
μ λ°μ΄νΈ. 2025λ 1μ 5μΌ musubi-tunerλ‘ v.0.4 νμ΅μ μλ£νμ§λ§, v0.3λ³΄λ€ μ±λ₯μ΄ λ λλΉ΄κΈ° λλ¬Έμ 곡κ°νμ§ μκ² μ΅λλ€( v0.5μλ diffusion-pipeλ₯Ό μ¬μ©ν©λλ€).
μ λ°μ΄νΈ. 2025λ 1μ 21μΌ v0.5 νμ΅ μ€μ λ무 λ§μ μ€μλ₯Ό μ μ§λ κ³ , λ°λΌμ μ΄ λ²μ μ νκΈ°νκ³ ν₯μλ λ°μ΄ν°μ κ³Ό νμ΅ νλΌλ―Έν°λ‘ μ²μλΆν° λ€μ μμνκΈ°λ‘ κ²°μ νμ΅λλ€(λ ν λ² musubiλ₯Ό μλν΄ λ³΄κ² μ΅λλ€). 32μκ°μ΄ λλΉλμμ§λ§, μ΄λ μ’μ κ²°κ³Όλ₯Ό μν ν¬μμ λλ€ :)
μ¬μ©λ²
μΆλ‘ μ μ λ κΈ°λ³Έ ComfyUI νμ΄νλΌμΈμ λ¨μν μΆκ° LoRA λ‘λ λ Έλλ§ μ¬μ©ν©λλ€. Kijaiμ λνΌλ μλν κ²μ λλ€(μ μ΄λ μΌμ£ΌμΌ μ μλ μλνμ§λ§, κ·Έ μ΄νλ‘λ λ€μ΄ν°λΈ μν¬νλ‘λ‘ μ ννμ΅λλ€). νλΌλ―Έν°λ κΈ°λ³Έκ°μ΄λ©°, λ€μλ§ λ€λ¦ λλ€:
guidance: 7.0
steps: 30
μ΄ κ°λ€μ΄ μ΅μ μ μλλλ€. λ¨μ§ μ λ μ£Όλ‘ μ΄ κ°λ€λ‘ ν΄λ¦½μ μμ±νμ λΏμ΄λ©°, λ€λ₯Έ μ‘°ν©μ΄ λ λμ κ²°κ³Όλ₯Ό λΌ μλ μμ΅λλ€.
νμ¬ μ¬μ©νλ ν둬ννΈ ν νλ¦Ώμ λ€μκ³Ό κ°μ΅λλ€:
A scene from a Studio Ghibli animated film, featuring [CHARACTER DESCRIPTION], as they [ACTION] at [ENVIRONMENT], under [LIGHTING], with [ADDITIONAL SETTING DETAILS], while the camera [CAMERA WORK], emphasizing [MOOD AND AMBIANCE].
μ λ μΌλ°μ μΌλ‘ βblonde woman, barefeet, ocean seashore, fine weatherβ λ±μ νκ·Έλ₯Ό LLMμ μ λ ₯νκ³ , μ΄ ν νλ¦Ώμ λ°λΌ μμ°μ€λ¬μ΄ μΈμ΄λ‘ μΌκ΄λ ν둬ννΈλ₯Ό μμ±ν΄ λ¬λΌκ³ μμ²ν©λλ€.
νμ΅
μ μ νμ΅ λ°©μμ΄ μ΅μ μ μλλΌλ μ μ λͺ μ¬ν΄ μ£ΌμΈμ. μ λ λ¨μ§ ν μ€νΈμ μ€νμ νκ³ μμ λΏμ΄λ©°, μ΄ LoRAκ° ν¨κ³Όλ₯Ό λ°νν μ΄μ κ° μ’μ λ°©λ² λλ¬Έμ΄ μλλΌ, μ€νλ € λμ λ°©λ²μμλ λΆκ΅¬νκ³ μλνμ κ°λ₯μ±μ΄ μμ΅λλ€.
νμ¬ λ²μ μ LoRAλ λ€μν μ§λΈλ¦¬ μνμ μ€ν¬λ¦°μΊ‘ 185κ°(512x512)λ‘ νμ΅λμμ΅λλ€. μ΄ μ΄λ―Έμ§λ€μ CogVLM2λ₯Ό μ¬μ©ν΄ μΊ‘μ νλμμ΅λλ€. μΊ‘μ μμ± ν둬ννΈλ λ€μκ³Ό κ°μ΅λλ€:
Create a very detailed description of this image as if it was a frame from Studio Ghibli movie. The description should necessarily 1) describe the main content of the scene, detail the scene's content, which notably includes scene transitions and camera movements that are integrated with the visual content, such as camera follows some subject 2) describe the environment in which the subject is situated 3) identify the type of video shot that highlights or emphasizes specific visual content, such as aerial shot, close-up shot, medium shot, or long shot 4) include description of the atmosphere of the video, such as cozy, tense, or mysterious. Do not use numbered lists or line breaks. IMPORTANT: output description MUST ALWAYS start with unaltered phrase 'A scene from Studio Ghibli animated film, featuring...', and then insert your detailed description.
νμ΅μλ diffusion-pipe.λ₯Ό μ¬μ©νμ΅λλ€. λ€λ₯Έ κ°λ₯ν μ νμ§λ finetrainers (νμ¬ HV νμ΅μλ >24GB VRAM νμ), musubi-tuner (μμ§ μ’μ κ²°κ³Όλ₯Ό μ»μ§ λͺ»νμ§λ§, μννΈμ¨μ΄ νμ μλ), κ·Έλ¦¬κ³ OneTrainer (μμ§ μλνμ§ μμ)μ λλ€.
νμ΅μ Windows 11 Home (WSL2), 64GB RAM, RTX 3090 λ¨μΌ GPUμμ μ§νλμμ΅λλ€. νμ΅ νλΌλ―Έν°λ κΈ°λ³Έκ°(main, dataset)μ΄λ©°, λ€μλ§ λ³κ²½λμμ΅λλ€:
rank = 16
lr = 6e-5
κ° μν¬ν¬λ§λ€ μ μ₯νκ³ , μ΄ 20 μν¬ν¬λ₯Ό μ§ννμΌλ©°, κ° μν¬ν¬λ 462 μ€ν μΌλ‘ ꡬμ±λμ΄ μ΄ 9240 μ€ν μ΄μμ΅λλ€. RTX 3090μμμ μλλ μ½ 7μ΄/μ€ν μ΄μκ³ , κ° μν¬ν¬λ μ½ 1μκ° λ―Έλ§μ΄ μμλμμ΅λλ€. 13λ²μ§Έμμ 20λ²μ§Έ μν¬ν¬λ₯Ό ν μ€νΈν κ²°κ³Ό, 19λ²μ§Έ μν¬ν¬κ° κ°μ₯ μΌκ΄μ±μ΄ λκ³ μλ¬κ° κ°μ₯ μ μ΄ μ ννμ΅λλ€.
κ²°κ³Όλ μ¬μ ν μλ²½νμ§ μμ§λ§, ν₯μλ λ²μ μ μ 곡νκ³ μ ν©λλ€. λ€μ λ²μ μ μ΄λ―Έμ§κ° μλ ν΄λ¦½μΌλ‘ νμ΅λ μμ μ΄μ§λ§, λ°μ΄ν°μ μ€λΉμ μκ°μ΄ νμν©λλ€.
λν ν₯ν μΆμλ I2V λͺ¨λΈμ΄ μ€νμΌ LoRAλ₯Ό 무μλ―Ένκ² λ§λ€ κ°λ₯μ±λ μμ΅λλ€.
P.S.
μ΄λ¬ν λ°μ΄λ λ‘컬 λΉλμ€ λͺ¨λΈμ΄ λμλ€λ μ¬μ€μ μ¬μ ν λλΌμμ κΈμΉ λͺ»ν©λλ€. μ΄μ λ‘컬 λΉλμ€ μμ± λΆμΌμ μ§μ ν Stable Diffusionμ μκ°μ΄ λλνλ€κ³ λλλλ€. λ―Έλμ λ λ°μ΄λ λͺ¨λΈμ΄ λ±μ₯ν κ²μμ λΆλͺ νμ§λ§, HunyuanVideoλ μ μκ²λ λΆλͺ ν μ²μμ΄μ μ μΌν λͺ¨λΈμΌ κ²μ λλ€ β€οΈ




















