텍스트 프롬프트 감지
기능 설명
이 연산자는 Grounding DINO 모델을 활용하여 개방형 어휘 객체 감지를 구현합니다. 즉, 특정 객체 범주에 대해 사전 학습할 필요 없이 텍스트로 설명할 수만 있다면 잠재적으로 감지될 수 있습니다. 사용자가 입력한 영어 텍스트 프롬프트(단어 또는 문장)를 기반으로 이미지에서 텍스트 설명에 해당하는 객체를 감지하고 해당 경계 상자, 범주 및 신뢰도 점수를 출력합니다.
사용 사례
-
개방형 어휘 감지: 영어로 설명할 수만 있다면 학습 세트에 포함되지 않은 새로운 객체 범주를 감지합니다. 예: "테이블 위의 빨간 사과" 또는 "모자를 쓴 사람".
-
세분화된 감지: 더 구체적인 설명을 기반으로 객체를 구별합니다. 예: "고양이"와 "개" 또는 "세단"과 "트럭" 구별.
-
특정 속성 감지: 특정 속성을 가진 객체를 감지합니다. 예: "열린 문" 또는 "파란색 의자".
입력 및 출력
입력 항목 |
그림: 감지할 컬러 이미지(RGB 형식이어야 함). 현재 단일 이미지 입력만 지원됩니다. |
출력 항목 |
테스트 결과: 감지 결과를 포함하는 목록으로, 각 결과는 감지된 인스턴스를 나타내며 해당 경계 상자(일반적으로 수평 상자), 신뢰도 점수, 할당된 범주 ID(범주 매핑 매개변수 기반) 및 해당 다각형 윤곽(경계 상자와 동일)을 포함합니다. |
매개변수 설명
|
|
가중치 파일
매개변수 설명 |
감지에 사용할 Grounding DINO 모델 가중치 파일(일반적으로 .pth 형식)을 지정합니다. 유효한 모델 파일을 선택해야 합니다. 사용 가능한 모델에는 Swin-T 및 Swin-B 두 가지가 있으며 공식 제공 모델은 특정 경로에서 다운로드할 수 있습니다. |
매개변수 조정 가이드 |
작업 요구 사항 및 하드웨어 기능과 일치하는 모델을 선택하십시오. Swin-B 모델은 일반적으로 더 크고 정확도가 높을 수 있지만 속도가 느립니다. Swin-T 모델은 비교적 작고 빠릅니다. |
GPU를 활성화하다
매개변수 설명 |
모델 추론 계산에 GPU를 사용할지 여부를 선택합니다. 선택한 경우 컴퓨터에 사용 가능한 NVIDIA 그래픽 카드와 해당 CUDA 환경이 있는지 확인해야 합니다. 기본적으로 꺼져 있습니다. |
매개변수 조정 가이드 |
이 옵션을 선택하면 처리 속도가 크게 향상될 수 있습니다. 호환되는 GPU가 없거나 GPU 메모리가 부족한 경우 선택을 취소해야 합니다. |
BERT 언어 모델 경로
매개변수 설명 |
로컬 BERT 언어 모델 폴더의 경로를 지정합니다. |
매개변수 조정 가이드 |
|
프롬프트 문구
매개변수 설명 |
감지를 안내하기 위한 영어 단어나 문장을 입력합니다. 모델은 이 설명과 일치하는 객체를 이미지에서 찾으려고 시도합니다. 이 매개변수는 반드시 제공해야 합니다. |
매개변수 조정 가이드 |
명확하고 구체적인 영어 설명을 사용하십시오. 여러 다른 객체 범주를 감지하려면 영어 마침표나 쉼표로 다른 프롬프트/문구를 구분할 수 있습니다. 예: "chair . table . person" 또는 "red car, blue bike". 프롬프트의 품질은 감지 성능에 직접적인 영향을 미칩니다. |
카테고리 매핑
매개변수 설명 |
프롬프트에 해당하는 감지된 객체를 지정한 숫자 범주 ID(0부터 시작하는 정수)에 매핑합니다. 이는 나중에 범주를 기준으로 필터링하거나 처리하는 데 매우 유용합니다. |
매개변수 조정 가이드 |
|