テキストプロンプト検出

機能説明

このオペレータは、Grounding DINOモデルを利用して、オープン語彙の物体検出を実現します。つまり、特定のカテゴリの物体に対して事前にトレーニングする必要はなく、テキストで記述できれば検出される可能性があります。ユーザーが入力した英語のテキストプロンプト(単語または文)に基づいて、画像内のテキスト記述に対応する物体を検出し、それらのバウンディングボックス、カテゴリ、および信頼度スコアを出力します。

使用シナリオ

  • オープン語彙検出:英語で記述できれば、トレーニングセットに含まれていない新しいカテゴリの物体を検出します。例:「テーブルの上の赤いリンゴ」または「帽子をかぶった人」。

  • 詳細な検出:より具体的な記述に基づいて物体を区別します。例:「猫」と「犬」、または「セダン」と「トラック」の区別。

  • 特定属性検出:特定の属性を持つ物体を検出します。例:「開いたドア」または「青い椅子」。

入力/出力

入力項目

画像:検出を行うカラー画像(RGB形式である必要があります)。現在、単一画像の入力のみをサポートしています。

出力項目

テスト結果:検出結果を含むリスト。各結果は検出されたインスタンスを表し、そのバウンディングボックス(通常は水平ボックス)、信頼度スコア、割り当てられたカテゴリID(カテゴリマッピングパラメータに基づく)、および対応するポリゴン輪郭(バウンディングボックスと同じ)を含みます。

パラメータ説明

  • このオペレータはGroundingDINO Pythonライブラリに依存しています。お使いの環境にまだインストールされていない場合は、Qianyiのpypiソースから`pip install groundingdino`を使用してインストールしてください。

  • このオペレータにはBERT言語モデルも必要です。初回実行時、環境がQianyi Technologyの社内モデルサーバーにアクセスできる場合は、手動での設定は不要で、ソフトウェアが自動的にダウンロードします。アクセスできない場合は、手動で`bert-base-uncased.zip`をダウンロードして解凍し、初期化パラメータで解凍後のパスを指定する必要があります。一度正常に設定されると、通常、後続の実行では再度指定する必要はありません。

  • 英語プロンプト:プロンプトは英語である必要があります。

  • プロンプト区切り文字:異なる検出ターゲットプロンプトを区切るには、英語のピリオドまたはカンマを使用します。

  • カテゴリマッピングの整合性:「カテゴリマッピング」の数値IDの数と順序が「プロンプトフレーズ」のプロンプトと一対一で対応していることを確認してください。そうしないと、カテゴリ割り当ての混乱やデフォルト割り当ての使用につながる可能性があります。

  • 入力画像:入力がカラーRGB画像であることを確認してください。

  • 単一画像処理:現在のオペレータ実装は、一度に1つの画像の処理のみをサポートしています。

重量ファイル

パラメータ説明

検出に使用するGrounding DINOモデルの重みファイル(通常は.pth形式)を指定します。有効なモデルファイルを選択する必要があります。利用可能なモデルにはSwin-TとSwin-Bの2種類があり、公式提供のモデルは特定のパスからダウンロードできます。

パラメータ調整ガイド

タスクの要件とハードウェア能力に一致するモデルを選択してください。Swin-Bモデルは通常、より大きく、精度が高い可能性がありますが、速度は遅くなります。Swin-Tモデルは比較的小さく、高速です。

GPUを有効にする

パラメータ説明

モデル推論計算にGPUを使用するかどうかを選択します。チェックした場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。デフォルトはオフ状態です。

パラメータ調整ガイド

このオプションをチェックすると、処理速度が大幅に向上します。互換性のあるGPUがないか、GPUメモリが不足している場合は、チェックを外す必要があります。

BERT言語モデルのパス

パラメータ説明

ローカルBERT言語モデルフォルダへのパスを指定します。

パラメータ調整ガイド

  • 初回実行時:社内モデルサーバーにアクセスできる場合は、追加の設定は不要です。デフォルト値を維持してください。

  • 社内サービスに接続できない場合:http://10.10.10.98:9000または他のソースから手動で`bert-base-uncased.zip`をダウンロードし、解凍してから、このパラメータで解凍されたフォルダへのパスを選択する必要があります。

  • 後続の実行:モデルが一度正常にロードされると(自動または手動)、モデルファイルが移動または削除されない限り、通常はこのパラメータを再度設定する必要はありません。

プロンプトフレーズ

パラメータ説明

検出を誘導するための英語の単語または文を入力します。モデルはこの記述に一致する画像を画像内で検索しようとします。このパラメータは必須です。

パラメータ調整ガイド

明確で具体的な英語の記述を使用してください。複数の異なる物体カテゴリを検出する場合は、英語のピリオドまたはカンマで異なるプロンプト/フレーズを区切ることができます。例:「chair . table . person」または「red car, blue bike」。プロンプトの品質は検出効果に直接影響します。

カテゴリマッピング

パラメータ説明

プロンプトに対応して検出された物体を、指定した数値カテゴリID(0から始まる整数)にマッピングします。これは、後でカテゴリに基づいてフィルタリングまたは処理する場合に非常に役立ちます。

パラメータ調整ガイド

  • 英語のピリオドまたはカンマで区切られた数字の文字列を入力します。これらの数字は、「プロンプトフレーズ」で区切り文字で区切られた各プロンプトに順番に対応します。たとえば、プロンプトが「cat . dog . bird」の場合、カテゴリマッピングは「0 . 1 . 2」となり、検出された猫はカテゴリ0、犬はカテゴリ1、鳥はカテゴリ2としてラベル付けされます。

  • このパラメータが空の場合、または提供されたマッピングの数がプロンプトの数より少ない場合、オペレータは自動的にカテゴリID 0, 1, 2, …​を順番に割り当てます。 マッピングの数がプロンプトの数以上であることを確認してください。

テストボックスの信頼閾値

パラメータ説明

検出結果をフィルタリングするためのバウンディングボックスの信頼度スコアのしきい値。このしきい値よりも高いスコアの検出ボックスのみが保持されます。

パラメータ調整ガイド

この値を大きくすると検出結果が少なくなり、非常に信頼性の高いターゲットのみが保持され、誤検出が減少します。小さくすると検出結果が多くなり、信頼性の低いターゲットが含まれる可能性がありますが、誤検出も増加します。実際の結果に基づいて調整してください。

パラメータ範囲

[0,1],デフォルト値:0.3

検出カテゴリの信頼度のしきい値

パラメータ説明

検出結果をフィルタリングするためのテキスト-画像マッチング信頼度スコアのしきい値。検出された領域が対応するテキストプロンプトとどの程度一致するかを測定します。

パラメータ調整ガイド

この値を大きくすると、検出結果とテキストプロンプトの間のより高い意味的整合性が要求され、バウンディングボックスの信頼度が高いがプロンプトとの関連性が低い結果を除外するのに役立ちます。この値を小さくすると、一致度がわずかに低い結果も通過できるようになります。

パラメータ範囲

[0, 1],デフォルト値:0.25