Geeky Ghost Story Teller

详情

下载文件

模型描述

免责声明!哈哈——这可能会让人感到沮丧。要让其良好运行,需要一些耐心和理解。但好消息是,这里有大量技巧和独特的节点用法可供借鉴和挖掘,如果你能像我一样成功运行,那真的会很酷哈哈。

这被视为实验性项目,因为它依赖于大语言模型(LLM)的稳定输出,而本项目涉及多个LLM自动化模块。它需要比通常使用的更大的LLM。这类工作流和使用LLM的节点,还依赖于为特定任务精心设计的详细配置文件、LLM节点的详细提示指令以及示例。任何LLM节点都属于“效果因人而异”类型,具体取决于你使用的LLM、提示词、配置文件等。

因此,这个项目非常依赖你的LLM,成败难料。它需要两张图片,一张作为故事叙述者,另一张作为故事的参考。目前仍在开发中,但已经很有趣了。提示词调度(Prompt Schedule)是最不稳定的部分。Darwin在格式化方面表现不错,但并非总是如此。你的LLM效果可能因人而异,哈哈。

本工作流中的亮点:

你可以使用视频代替图片,我测试任何节点时,曾将其用于将一张图片复制19次,从而欺骗wav2lip以为它是视频,哈哈。实际上你可以直接使用视频,或使用单张图片配合任何节点。

帧数由生成的音频长度决定,我将其发送给“批量转整数”节点,然后将得到的整数值作为批量大小。

“拼接图像”节点——我尝试看看视频是否可行,结果真的可以,太棒了哈哈!目前要求两个视频的帧数必须一致。我正在寻找解决方案,以便能够插值第二个视频或降低其帧率。

提示词调度(Prompt Schedule)——让Darwin基本正确完成这项任务有点挑战,它仍然无法逻辑性地处理超过300帧的延伸,并且有时会忘记在最终提示词末尾不加句号或逗号。但目前的表现已经足够好了,哈哈。更强大的模型可能会减少这些问题。

Geeky Ghost LCM 是我自创的一个1.5模型,融合了Photon LCM,任何LCM模型均可使用,选一个你喜欢的,或自己合并一个,哈哈。

我使用的Darwin模型具备视觉能力,因此你需要一个具备视觉功能的模型来生成图像描述。并非所有模型都有视觉能力,主要是一些Llava模型和部分实验性的Llama3模型,其他少数也有,但主要就是这些。

此模型生成的图像

未找到图像。