🔷テキストプロンプト検出
機能説明
このオペレーターは Grounding DINO モデルを利用して、オープンボキャブラリのターゲット検出を実現します。つまり、事前に特定カテゴリの物体を訓練する必要がなく、テキストで説明できればば検出される可能性があります。ユーザーが入力した英文テキストプロンプト(単語または文章)に基づいて、画像中のテキスト説明に対応する物体を検出し、それらの境界ボックス、カテゴリ、信頼度スコアを出力します。
使用シーン
-
オープンボキャブラリ検出:訓練セットに含まれていない新しいカテゴリの物体を検出します。英語で説明できれば可能です。例えば「the red apple on the table」または「person wearing a hat」。
-
細粒度検出:より具体的な説明に基づいて物体を区別します。例えば、「cat」と「dog」、または「sedan」と「truck」の区別。
-
特定属性検出:特定属性を持つ物体を検出します。例えば、「the open door」または「a blue chair」。
入力・出力
入力項目 |
画像:検出が必要なカラー画像(RGB形式である必要があります)。現在、単一画像入力のみをサポートします。 |
|
出力項目 |
検出結果:検出結果を含むリスト。各結果は検出されたインスタンスを表し、その境界ボックス(通常は水平ボックス)、信頼度スコア、割り当てられたカテゴリID(カテゴリマッピングパラメータに基づく)、対応する多角形輪郭(境界ボックスと同じ)を含みます。 |
|
パラメータ説明
|
重みファイル
パラメータ説明 |
検出用の Grounding DINO モデル重みファイル(通常は.pth形式)を指定します。有効なモデルファイルを選択する必要があります。利用可能なモデルには Swin-T と Swin-B の2種類があり、公式提供のモデルは特定パスでダウンロードできます。 |
調整説明 |
タスク需要とハードウェア能力に適合するモデルを選択します。Swin-B モデルは通常より大きく、精度がより高い可能性がありますが速度が遅いです;Swin-T モデルは相対的により小さく、速度がより速いです。 |
GPUを有効にする
パラメータ説明 |
GPUを使用してモデル推論計算を行うかどうかを選択します。チェックを入れる場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。デフォルトは無効状態です。 |
調整説明 |
この項目をチェックすると処理速度を大幅に向上させることができます。互換性のあるGPUがない、またはビデオメモリが不足する場合は、チェックを外してください。 |
bert言語モデルパス
パラメータ説明 |
ローカル BERT 言語モデルフォルダのパスを指定します。 |
調整説明 |
オペレーターの実行は BERT 言語モデルに依存します。環境が迁移科技内网モデルサーバーへのアクセスを許可する場合、手動設定は不要で、ソフトウェアが自動的にダウンロードします;アクセスできない場合は、手動で bert-base-uncased.zip をダウンロードして解凍し、初期化パラメータで解凍後のパスを指定する必要があります。BERT 言語モデルダウンロードアドレス: 後続実行:モデルが一度正常にロードされた(自動または手動)後、通常、モデルファイルが移動または削除されない限り、このパラメータを再設定する必要はありません。 |
プロンプト文
パラメータ説明 |
検出を導くための英単語または文章を入力します。モデルは画像中でこの説明に一致する物体を見つけようとします。このパラメータを提供する必要があります。 |
調整説明 |
明確で具体的な英語説明を使用してください。複数の異なる物体カテゴリを検出したい場合は、英語のピリオドまたはカンマで異なるプロンプトワード/短文を区切ることができます。例えば: "chair . table . person" または "red car, blue bike"。プロンプトワードの品質は検出効果に直接影響します。 |
カテゴリマッピング
パラメータ説明 |
プロンプトワードに対応する検出された物体を、指定した数字カテゴリID(0から始まる整数)にマッピングします。これは後続のカテゴリに基づくフィルタリングや処理に非常に有用です。 |
調整説明 |
英語のピリオドまたはカンマで区切られた数字列を入力します。これらの数字は「プロンプトワード文」中の区切り文字で分けられた各プロンプトワードに順序対応します。例えば、プロンプトワードが "cat . dog . bird" の場合、カテゴリマッピングは "0 . 1 . 2" にでき、検出された猫はカテゴリ0、犬はカテゴリ1、鳥はカテゴリ2とマークされます。 このパラメータが空、または提供されたマッピング数量がプロンプトワード数量より少ない場合、オペレーターは自動的に順序でカテゴリID 0, 1, 2, …を割り当てます。 マッピング数量が少なくともプロンプトワード数量と等しいことを確保してください。 |

