テキストプロンプト検出
機能説明
このオペレータは、Grounding DINOモデルを利用して、オープン語彙の物体検出を実現します。つまり、特定のカテゴリの物体に対して事前にトレーニングする必要はなく、テキストで記述できれば検出される可能性があります。ユーザーが入力した英語のテキストプロンプト(単語または文)に基づいて、画像内のテキスト記述に対応する物体を検出し、それらのバウンディングボックス、カテゴリ、および信頼度スコアを出力します。
使用シナリオ
-
オープン語彙検出:英語で記述できれば、トレーニングセットに含まれていない新しいカテゴリの物体を検出します。例:「テーブルの上の赤いリンゴ」または「帽子をかぶった人」。
-
詳細な検出:より具体的な記述に基づいて物体を区別します。例:「猫」と「犬」、または「セダン」と「トラック」の区別。
-
特定属性検出:特定の属性を持つ物体を検出します。例:「開いたドア」または「青い椅子」。
入力/出力
入力項目 |
画像:検出を行うカラー画像(RGB形式である必要があります)。現在、単一画像の入力のみをサポートしています。 |
出力項目 |
テスト結果:検出結果を含むリスト。各結果は検出されたインスタンスを表し、そのバウンディングボックス(通常は水平ボックス)、信頼度スコア、割り当てられたカテゴリID(カテゴリマッピングパラメータに基づく)、および対応するポリゴン輪郭(バウンディングボックスと同じ)を含みます。 |
パラメータ説明
|
|
重量ファイル
パラメータ説明 |
検出に使用するGrounding DINOモデルの重みファイル(通常は.pth形式)を指定します。有効なモデルファイルを選択する必要があります。利用可能なモデルにはSwin-TとSwin-Bの2種類があり、公式提供のモデルは特定のパスからダウンロードできます。 |
パラメータ調整ガイド |
タスクの要件とハードウェア能力に一致するモデルを選択してください。Swin-Bモデルは通常、より大きく、精度が高い可能性がありますが、速度は遅くなります。Swin-Tモデルは比較的小さく、高速です。 |
GPUを有効にする
パラメータ説明 |
モデル推論計算にGPUを使用するかどうかを選択します。チェックした場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。デフォルトはオフ状態です。 |
パラメータ調整ガイド |
このオプションをチェックすると、処理速度が大幅に向上します。互換性のあるGPUがないか、GPUメモリが不足している場合は、チェックを外す必要があります。 |
BERT言語モデルのパス
パラメータ説明 |
ローカルBERT言語モデルフォルダへのパスを指定します。 |
パラメータ調整ガイド |
|
プロンプトフレーズ
パラメータ説明 |
検出を誘導するための英語の単語または文を入力します。モデルはこの記述に一致する画像を画像内で検索しようとします。このパラメータは必須です。 |
パラメータ調整ガイド |
明確で具体的な英語の記述を使用してください。複数の異なる物体カテゴリを検出する場合は、英語のピリオドまたはカンマで異なるプロンプト/フレーズを区切ることができます。例:「chair . table . person」または「red car, blue bike」。プロンプトの品質は検出効果に直接影響します。 |
カテゴリマッピング
パラメータ説明 |
プロンプトに対応して検出された物体を、指定した数値カテゴリID(0から始まる整数)にマッピングします。これは、後でカテゴリに基づいてフィルタリングまたは処理する場合に非常に役立ちます。 |
パラメータ調整ガイド |
|