数据集:149 帧关键帧(我收集了大量屏幕截图,将它们合并成一个视频,然后从中提取关键帧)
使用 SmilingWolf vit-large 进行标注
1boy, zuko, yellow eyes, scar,
黑发,马尾,光头,
黑发,短发,
黑发,短发,剃光头,
黑发,发髻,