从10部电影中提取图像,每隔N帧提取一次,以获得约100张图像。然后将数据集复制一份:一份使用gemini-2.5-flash-lite添加标题,另一份使用空标题。训练步骤限制为500步。
显然,由于这一版本投入的人工努力很少,模型表现并不出色。
我需要手动重新提取帧,以确保所有帧的选取相对均衡(而非偶然出现模糊帧或其他异常帧),同时修改标题以纠正问题并包含角色名称。
v1.0 版本与此相同,但未使用dropout;v1.1 使用了5%的dropout。
一个对Qwen-Image的吉卜力风格LoRA的极低投入尝试。