텍스트 프롬프트 감지

기능 설명

이 연산자는 Grounding DINO 모델을 활용하여 개방형 어휘 객체 감지를 구현합니다. 즉, 특정 객체 범주에 대해 사전 학습할 필요 없이 텍스트로 설명할 수만 있다면 잠재적으로 감지될 수 있습니다. 사용자가 입력한 영어 텍스트 프롬프트(단어 또는 문장)를 기반으로 이미지에서 텍스트 설명에 해당하는 객체를 감지하고 해당 경계 상자, 범주 및 신뢰도 점수를 출력합니다.

사용 사례

  • 개방형 어휘 감지: 영어로 설명할 수만 있다면 학습 세트에 포함되지 않은 새로운 객체 범주를 감지합니다. 예: "테이블 위의 빨간 사과" 또는 "모자를 쓴 사람".

  • 세분화된 감지: 더 구체적인 설명을 기반으로 객체를 구별합니다. 예: "고양이"와 "개" 또는 "세단"과 "트럭" 구별.

  • 특정 속성 감지: 특정 속성을 가진 객체를 감지합니다. 예: "열린 문" 또는 "파란색 의자".

입력 및 출력

입력 항목

그림: 감지할 컬러 이미지(RGB 형식이어야 함). 현재 단일 이미지 입력만 지원됩니다.

출력 항목

테스트 결과: 감지 결과를 포함하는 목록으로, 각 결과는 감지된 인스턴스를 나타내며 해당 경계 상자(일반적으로 수평 상자), 신뢰도 점수, 할당된 범주 ID(범주 매핑 매개변수 기반) 및 해당 다각형 윤곽(경계 상자와 동일)을 포함합니다.

매개변수 설명

  • 이 연산자는 GroundingDINO Python 라이브러리에 의존합니다. 환경에 아직 설치되어 있지 않은 경우 Qianyi의 pypi 소스에서 `pip install groundingdino`를 사용하여 설치하십시오.

  • 이 연산자에는 BERT 언어 모델도 필요합니다. 첫 실행 시 환경에서 Qianyi Technology의 내부 모델 서버에 액세스할 수 있는 경우 수동 구성이 필요 없으며 소프트웨어가 자동으로 다운로드합니다. 액세스할 수 없는 경우 수동으로 `bert-base-uncased.zip`을 다운로드하여 압축을 풀고 초기화 매개변수에서 압축 해제된 경로를 지정해야 합니다. 한 번 성공적으로 구성한 후에는 일반적으로 모델 파일이 이동되거나 삭제되지 않는 한 후속 실행에서 다시 지정할 필요가 없습니다.

  • 영어 프롬프트: 프롬프트는 영어여야 합니다.

  • 프롬프트 구분 기호: 다른 감지 대상 프롬프트를 구분하려면 영어 마침표나 쉼표를 사용하십시오.

  • 범주 매핑 정렬: "범주 매핑"의 숫자 ID 수와 순서가 "프롬프트 문구"의 프롬프트와 일대일로 일치하는지 확인하십시오. 그렇지 않으면 범주 할당 혼란이나 기본 할당 사용으로 이어질 수 있습니다.

  • 입력 이미지: 입력이 컬러 RGB 이미지인지 확인하십시오.

  • 단일 이미지 처리: 현재 연산자 구현은 한 번에 하나의 이미지만 처리하도록 지원합니다.

가중치 파일

매개변수 설명

감지에 사용할 Grounding DINO 모델 가중치 파일(일반적으로 .pth 형식)을 지정합니다. 유효한 모델 파일을 선택해야 합니다. 사용 가능한 모델에는 Swin-T 및 Swin-B 두 가지가 있으며 공식 제공 모델은 특정 경로에서 다운로드할 수 있습니다.

매개변수 조정 가이드

작업 요구 사항 및 하드웨어 기능과 일치하는 모델을 선택하십시오. Swin-B 모델은 일반적으로 더 크고 정확도가 높을 수 있지만 속도가 느립니다. Swin-T 모델은 비교적 작고 빠릅니다.

GPU를 활성화하다

매개변수 설명

모델 추론 계산에 GPU를 사용할지 여부를 선택합니다. 선택한 경우 컴퓨터에 사용 가능한 NVIDIA 그래픽 카드와 해당 CUDA 환경이 있는지 확인해야 합니다. 기본적으로 꺼져 있습니다.

매개변수 조정 가이드

이 옵션을 선택하면 처리 속도가 크게 향상될 수 있습니다. 호환되는 GPU가 없거나 GPU 메모리가 부족한 경우 선택을 취소해야 합니다.

BERT 언어 모델 경로

매개변수 설명

로컬 BERT 언어 모델 폴더의 경로를 지정합니다.

매개변수 조정 가이드

  • 첫 실행 시: 내부 모델 서버에 액세스할 수 있는 경우 추가 구성이 필요 없으며 기본값을 유지합니다.

  • 내부 서비스에 연결할 수 없는 경우: http://10.10.10.98:9000 또는 다른 소스에서 수동으로 `bert-base-uncased.zip`을 다운로드하고 압축을 푼 다음 이 매개변수에서 압축 해제된 폴더의 경로를 선택해야 합니다.

  • 후속 실행 시: 모델이 한 번 성공적으로 로드되면(자동 또는 수동) 모델 파일이 이동되거나 삭제되지 않는 한 일반적으로 이 매개변수를 다시 설정할 필요가 없습니다.

프롬프트 문구

매개변수 설명

감지를 안내하기 위한 영어 단어나 문장을 입력합니다. 모델은 이 설명과 일치하는 객체를 이미지에서 찾으려고 시도합니다. 이 매개변수는 반드시 제공해야 합니다.

매개변수 조정 가이드

명확하고 구체적인 영어 설명을 사용하십시오. 여러 다른 객체 범주를 감지하려면 영어 마침표나 쉼표로 다른 프롬프트/문구를 구분할 수 있습니다. 예: "chair . table . person" 또는 "red car, blue bike". 프롬프트의 품질은 감지 성능에 직접적인 영향을 미칩니다.

카테고리 매핑

매개변수 설명

프롬프트에 해당하는 감지된 객체를 지정한 숫자 범주 ID(0부터 시작하는 정수)에 매핑합니다. 이는 나중에 범주를 기준으로 필터링하거나 처리하는 데 매우 유용합니다.

매개변수 조정 가이드

  • 영어 마침표나 쉼표로 구분된 숫자 문자열을 입력합니다. 이 숫자들은 "프롬프트 문구"에서 구분 기호로 구분된 개별 프롬프트에 순서대로 해당합니다. 예를 들어 프롬프트가 "cat . dog . bird"인 경우 범주 매핑은 "0 . 1 . 2"가 될 수 있으며, 그러면 감지된 고양이는 범주 0, 개는 범주 1, 새는 범주 2로 레이블이 지정됩니다.

  • 이 매개변수가 비어 있거나 제공된 매핑 수가 프롬프트 수보다 적으면 연산자는 자동으로 범주 ID 0, 1, 2, …​를 순서대로 할당합니다. 매핑 수가 프롬프트 수 이상인지 확인하십시오.

테스트 상자 신뢰 임계값

매개변수 설명

감지 결과를 필터링하기 위한 경계 상자 신뢰도 점수 임계값입니다. 이 임계값보다 높은 점수를 가진 감지 상자만 유지됩니다.

매개변수 조정 가이드

이 값을 늘리면 감지 결과가 줄어들어 매우 신뢰할 수 있는 대상만 유지되고 거짓 양성이 줄어듭니다. 줄이면 감지 결과가 늘어나 신뢰도가 낮은 대상이 포함될 수 있지만 거짓 양성도 늘어납니다. 실제 성능에 따라 조정하십시오.

매개변수 범위

[0,1], 기본값: 0.3

감지 카테고리 신뢰 임계값

매개변수 설명

감지 결과를 필터링하기 위한 텍스트-이미지 일치 신뢰도 점수 임계값입니다. 감지된 영역이 해당 텍스트 프롬프트와 얼마나 잘 일치하는지 측정합니다.

매개변수 조정 가이드

이 값을 늘리면 감지 결과와 텍스트 프롬프트 간의 의미론적 일치도가 높아져 경계 상자 신뢰도는 높지만 프롬프트와 관련성이 낮은 일부 결과를 필터링하는 데 도움이 됩니다. 이 값을 줄이면 일치도가 약간 낮은 결과도 통과할 수 있습니다.

매개변수 범위

[0, 1], 기본값: 0.25