文本提示检测
功能描述
该算子利用 Grounding DINO 模型,实现开放词汇的目标检测,即不需要预先训练特定类别的物体,只要能用文字描述,就可能被检测出来。根据用户输入的英文文本提示(单词或句子),在图像中检测出与文本描述相对应的物体,并输出它们的边界框、类别和置信度分数。
使用场景
-
开放词汇检测:检测训练集中未包含的新类别物体,只要能用英文描述出来即可。例如 "the red apple on the table" 或者 "person wearing a hat"。
-
细粒度检测:根据更具体的描述区分物体。例如,区分 "cat" 和 "dog",或者 "sedan" 和 "truck"。
-
特定属性检测:检测具有特定属性的物体。例如,"the open door" 或 "a blue chair"。
输入输出
输入项 |
图像: 需要进行检测的彩色图像(需要是RGB格式)。目前仅支持单张图像输入。 |
输出项 |
检测结果: 包含检测结果的列表,每个结果代表一个检测到的实例,含有其边界框(通常是水平框)、置信度分数、分配的类别ID(根据类别映射参数)和对应的多边形轮廓(与边界框相同)。 |
参数说明
|
|
权重文件
参数说明 |
指定用于检测的 Grounding DINO 模型权重文件(通常是 .pth 格式),必须选择一个有效的模型文件,可用的模型有 Swin-T 和 Swin-B 两种,官方提供的模型可在特定路径下载。 |
调参说明 |
选择与您任务需求和硬件能力相匹配的模型。Swin-B 模型通常更大、精度可能更高但速度较慢;Swin-T 模型相对较小、速度更快。 |
启用GPU
参数说明 |
选择是否使用 GPU 进行模型推理计算。如果勾选,需要确保计算机有可用的 NVIDIA 显卡及相应的 CUDA 环境,默认为关闭状态。 |
调参说明 |
勾选此项可以显著提升处理速度。如果无兼容GPU或显存不足,则应取消勾选。 |
bert语言模型路径
参数说明 |
指定本地 BERT 语言模型文件夹的路径。 |
调参说明 |
|
提示语句
参数说明 |
输入用于指导检测的英文单词或句子。模型将尝试在图像中寻找与此描述匹配的物体。必须提供此参数。 |
调参说明 |
使用清晰、具体的英文描述。如果要检测多个不同的物体类别,可以用英文句号或逗号分隔不同的提示词/短语。例如: "chair . table . person" 或 "red car, blue bike"。提示词的质量直接影响检测效果。 |
类别映射
参数说明 |
将检测到的与提示词对应的物体,映射为您指定的数字类别 ID(从0开始的整数)。这对于后续根据类别进行过滤或处理非常有用。 |
调参说明 |
|