Geeky Ghost Story Teller

세부 정보

파일 다운로드

모델 설명

!주의! lol - 이 작업은 좌절할 수 있습니다. 제대로 작동시키려면 약간의 인내심과 이해가 필요합니다. 그러나 장점으로는, 많은 기법들과 독특한 노드 사용법을 참고하고 활용할 수 있으며, 제가 한 것처럼 제대로 작동하게 되면 정말 재미있습니다 lol.

이 작업은 실험적인 성격을 띠며, LLM의 일관된 출력에 의존합니다. 이 시스템은 여러 LLM 자동화 섹션을 사용합니다. 일반적으로 사용되는 것보다 더 큰 LLM이 필요합니다. 이러한 LLM을 사용하는 워크플로우와 노드들은 작업에 특화된 세부 프로필, LLM 노드에 대한 상세한 프롬프트 지시사항 및 예시에도 의존합니다. 어떤 LLM 노드라도 '사용 환경에 따라 결과가 달라질 수 있습니다' 유형의 노드입니다. 사용하는 LLM, 프롬프트, 프로필 등에 따라 달라집니다.

따라서 이 작업은 매우 불안정하며 당신의 LLM에 크게 의존합니다. 두 개의 이미지를 사용하는데, 하나는 스토리텔러 역할, 다른 하나는 스토리의 참조용입니다. 아직 완성되지 않았지만 지금까지는 재미있습니다. 프롬프트 스케줄이 가장 불안정한 부분입니다. Darwin은 대체로 형식을 잘 맞추지만 항상 그런 것은 아닙니다. 당신의 LLM에 따라 결과가 달라질 수 있습니다 lol.

이 워크플로우의 주목할 만한 특징들:

이미지 대신 비디오를 사용할 수 있습니다. 저는 어떤 노드를 테스트하던 중, 이미지를 19번 복제하여 wav2lip에게 비디오인 것처럼 속였습니다 lol. 실제로 비디오를 사용할 수 있으며, 단일 이미지를 어떤 노드와도 함께 사용할 수 있습니다.

프레임 수는 생성된 오디오의 길이에 따라 결정됩니다. 저는 이를 batch to int 노드에 전달하고, 결과로 나온 정수를 배치의 크기로 사용합니다.

이미지 연결 노드 - 비디오가 작동할지 확인해 보려고 시도했고, 정말 잘 작동했습니다 lol. 현재는 두 비디오가 동일한 프레임 수를 가져야 합니다. 두 번째 비디오를 보간하거나 프레임 속도를 낮추는 해결책을 개발 중입니다.

프롬프트 스케줄 - Darwin이 이 작업을 거의 올바르게 수행하도록 하는 것은 약간의 도전이었습니다. 여전히 300 프레임을 넘어서 논리적으로 확장하는 개념을 이해하지 못하며, 최종 프롬프트 끝에 마침표나 쉼표를 추가하지 않아야 한다는 점을 기억하지 못합니다. 하지만 지금은 충분히 잘 작동합니다 lol. 더 나은 모델을 사용하면 문제가 줄어들 것입니다.

Geeky Ghost LCM은 제가 직접 만든 Photon LCM과 병합한 커스텀 1.5 모델입니다. 어떤 LCM 모델이든 사용 가능하며, 원하는 모델을 선택하거나 직접 병합해도 됩니다 lol.

Darwin(저는 이 모델을 사용합니다)은 시각 기능을 가지고 있으므로 이미지 설명을 위해 시각 모델이 필요합니다. 모든 모델이 시각 기능을 갖춘 것은 아닙니다. 대체로 Llava 및 일부 실험적인 Llama3 모델 등이 있습니다. 몇 개의 다른 모델들도 있지만, 주로 이들입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.