🔷テキストプロンプト検出

機能説明

このオペレーターは Grounding DINO モデルを利用して、オープンボキャブラリのターゲット検出を実現します。つまり、事前に特定カテゴリの物体を訓練する必要がなく、テキストで説明できればば検出される可能性があります。ユーザーが入力した英文テキストプロンプト（単語または文章）に基づいて、画像中のテキスト説明に対応する物体を検出し、それらの境界ボックス、カテゴリ、信頼度スコアを出力します。

使用シーン

オープンボキャブラリ検出：訓練セットに含まれていない新しいカテゴリの物体を検出します。英語で説明できれば可能です。例えば「the red apple on the table」または「person wearing a hat」。
細粒度検出：より具体的な説明に基づいて物体を区別します。例えば、「cat」と「dog」、または「sedan」と「truck」の区別。
特定属性検出：特定属性を持つ物体を検出します。例えば、「the open door」または「a blue chair」。

入力・出力

入力項目

画像：検出が必要なカラー画像（RGB形式である必要があります）。現在、単一画像入力のみをサポートします。

GroundDinoDetect input

出力項目

検出結果：検出結果を含むリスト。各結果は検出されたインスタンスを表し、その境界ボックス（通常は水平ボックス）、信頼度スコア、割り当てられたカテゴリID（カテゴリマッピングパラメータに基づく）、対応する多角形輪郭（境界ボックスと同じ）を含みます。

GroundDinoDetect output

パラメータ説明

英語プロンプト：英語を使用してプロンプトする必要があります。
プロンプトワード区切り：英語のピリオドまたはカンマを使用して、複数の異なる検出ターゲットプロンプトを区切ります。
カテゴリマッピング対応：「カテゴリマッピング」中の数字ID数量と順序が「プロンプトワード文」中のプロンプトワードと一対一対応することを確保してください。そうでないとカテゴリ割り当ての混乱またはデフォルト割り当ての使用を引き起こす可能性があります。
入力画像：カラーRGB画像であることを確認してください。
単一画像処理：現在のオペレーター実装は一度に1枚の画像の処理のみをサポートします。

重みファイル

パラメータ説明

検出用の Grounding DINO モデル重みファイル（通常は.pth形式）を指定します。有効なモデルファイルを選択する必要があります。利用可能なモデルには Swin-T と Swin-B の2種類があり、公式提供のモデルは特定パスでダウンロードできます。

調整説明

タスク需要とハードウェア能力に適合するモデルを選択します。Swin-B モデルは通常より大きく、精度がより高い可能性がありますが速度が遅いです；Swin-T モデルは相対的により小さく、速度がより速いです。

GPUを有効にする

パラメータ説明

GPUを使用してモデル推論計算を行うかどうかを選択します。チェックを入れる場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。デフォルトは無効状態です。

調整説明

この項目をチェックすると処理速度を大幅に向上させることができます。互換性のあるGPUがない、またはビデオメモリが不足する場合は、チェックを外してください。

bert言語モデルパス

パラメータ説明

ローカル BERT 言語モデルフォルダのパスを指定します。

調整説明

オペレーターの実行は BERT 言語モデルに依存します。環境が迁移科技内网モデルサーバーへのアクセスを許可する場合、手動設定は不要で、ソフトウェアが自動的にダウンロードします；アクセスできない場合は、手動で bert-base-uncased.zip をダウンロードして解凍し、初期化パラメータで解凍後のパスを指定する必要があります。BERT 言語モデルダウンロードアドレス：

http://10.10.10.98:9000/inference/groundingdino/groundingdino_swint_ogc.pth

http://10.10.10.98:9000/inference/groundingdino/groundingdino_swinb_cogcoor.pth

後続実行：モデルが一度正常にロードされた（自動または手動）後、通常、モデルファイルが移動または削除されない限り、このパラメータを再設定する必要はありません。

プロンプト文

パラメータ説明

検出を導くための英単語または文章を入力します。モデルは画像中でこの説明に一致する物体を見つけようとします。このパラメータを提供する必要があります。

調整説明

明確で具体的な英語説明を使用してください。複数の異なる物体カテゴリを検出したい場合は、英語のピリオドまたはカンマで異なるプロンプトワード/短文を区切ることができます。例えば: "chair . table . person" または "red car, blue bike"。プロンプトワードの品質は検出効果に直接影響します。

カテゴリマッピング

パラメータ説明

プロンプトワードに対応する検出された物体を、指定した数字カテゴリID（0から始まる整数）にマッピングします。これは後続のカテゴリに基づくフィルタリングや処理に非常に有用です。

調整説明

英語のピリオドまたはカンマで区切られた数字列を入力します。これらの数字は「プロンプトワード文」中の区切り文字で分けられた各プロンプトワードに順序対応します。例えば、プロンプトワードが "cat . dog . bird" の場合、カテゴリマッピングは "0 . 1 . 2" にでき、検出された猫はカテゴリ0、犬はカテゴリ1、鳥はカテゴリ2とマークされます。

このパラメータが空、または提供されたマッピング数量がプロンプトワード数量より少ない場合、オペレーターは自動的に順序でカテゴリID 0, 1, 2, …を割り当てます。マッピング数量が少なくともプロンプトワード数量と等しいことを確保してください。

検出ボックス信頼度閾値

パラメータ説明

検出結果の境界ボックス信頼度スコア閾値をフィルタリングするために使用されます。このスコアより高い検出ボックスのみが保持されます。

調整説明

この値を増加させると検出結果が少なくなり、モデルが非常に確信するターゲットのみを保持し、誤報を減らします。この値を減少させると、より多くの検出結果が得られ、あまり確信のないターゲットを含む可能性がありますが、誤報も増加する可能性があります。実際の効果に基づいて調整してください。

パラメータ範囲

[0,1]、デフォルト値：0.3

検出カテゴリ信頼度閾値

パラメータ説明

検出結果のテキスト-画像マッチング信頼度スコア閾値をフィルタリングするために使用されます。検出された領域と対応するテキストプロンプトのマッチング度を測定します。

調整説明

この値を増加させると、検出結果とテキストプロンプトの意味マッチング度がより高くなることを要求し、検出ボックス信頼度は高いがプロンプトワードとあまり関連しない結果をフィルタリングするのに役立ちます。この値を減少させると、マッチング度がやや低い結果の通過を許可します。

パラメータ範囲

[0, 1]、デフォルト値：0.25