BLIP 和 CLIPSeg 可协同工作,自动将图像中最重要的部分选为遮罩。它有一个输入 — 图像(或多个图像);两个输出 — 遮罩(或多个遮罩)和最后生成的文本。运行时,它将下载约 1.5-2.5 GB(取决于所选的 BLIP 模型)。如果没有遮罩或遮罩不在您需要的位置,请更改最小和最大长度;如果遮罩过多或不足,请更改阈值。