万物分割(高速)

機能説明

このオペレーターは、FastSAM(Fast Segment Anything Model)モデルを利用し、ユーザーが提供するプロンプト情報(境界ボックス、点、またはテキスト説明など)に基づいて、入力画像に対して高速インスタンス分割を行います。画像中のプロンプトに対応する物体領域を認識して分割できます。

使用シーン

  • インタラクティブ分割:画像中の特定の関心物体を迅速に分割する必要がある場合、プロンプトボックス、プロンプト点、またはパラメータテキスト説明の入力を通じてモデルに分割を導くことができます。

  • ターゲット抽出:複雑な背景から特定ターゲットの輪郭情報を正確に抽出するために使用されます。

  • 自動化アノテーション補助:自動化アノテーションフローの一部として、簡単なプロンプトを通じてターゲットの初期分割マスクを迅速に生成できます。

入力・出力

入力項目

画像:分割が必要なカラー画像(RGB形式である必要があります)。

プロンプト点リスト:複数の点座標[X, Y]を含むリスト。分割対象のターゲット領域を指示するために使用されます。例えば、ターゲット上で数点をクリックします。

プロンプトボックスリスト:複数の境界ボックス座標を含むリスト。各ボックスは4つの角点によって定義され、分割対象のターゲット領域を囲むために使用されます。

出力項目

検出結果:分割結果を含むリスト。各結果は分割されたインスタンスを表し、そのバウンディングボックス(回転ボックスまたは水平ボックスの可能性)、カテゴリ(デフォルトは0または指定カテゴリ)、信頼度スコア、分割された多角形輪郭を含みます。

パラメータ説明

このオペレーターは Fastsam Python ライブラリに依存します。環境にまだインストールされていない場合は、迁移内网のpypiソースにアクセスして pip install fastsam を使用してインストールしてください。

  • プロンプト方式組み合わせ:複数のプロンプト方式(点、ボックス、テキスト)を同時に使用でき、モデルはこれらの情報を総合して分割を行います。特定のプロンプトのみを使用したい場合は、他のプロンプト入力が空または未接続であることを確認してください。

  • 入力画像:カラーRGB画像であることを確認してください。

  • 単一画像処理:現在のオペレーター実装は一度に1枚の画像の処理のみをサポートします。

  • プロンプト座標:点プロンプトとボックスプロンプト入力の座標は画像ピクセル座標である必要があります。

重みファイル

パラメータ説明

分割用のFastSAMモデル重みファイル(通常は.pt形式)を指定します。有効なモデルファイルを選択する必要があります。

調整説明

タスク需要とハードウェア能力に適合するモデルを選択します。通常、より大きなモデル(FastSAM-xなど)は精度が高いですが速度が遅く、より小さなモデル(FastSAM-sなど)は速度が速いですが精度がやや低い可能性があります。

GPUを有効にする

パラメータ説明

GPUを使用してモデル推論計算を行うかどうかを選択します。チェックを入れる場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。

調整説明

GPUを有効にすると処理速度を大幅に向上させることができます。互換性のあるGPUがない場合は、チェックを外してください(CPUを使用)。

画像サイズ

パラメータ説明

モデルに送信して分割を行う前に、入力画像がスケールされるサイズ。

調整説明

より大きな画像サイズは通常、より高い分割精度をもたらしますが、同時に計算時間とビデオメモリ/メモリ消費も増加します。より小さなサイズはその逆です。よく使用される値は640、1024などです。特定のアプリケーションシーンで精度と速度のバランスを取る必要があります。

パラメータ範囲

デフォルト値:640

信頼度閾値

パラメータ説明

FastSAMの初期分割結果をフィルタリングする信頼度スコア閾値。この閾値より高い信頼度の分割結果のみが保持されます。

調整説明

この値を増加させると分割結果が少なくなり、モデルが非常に確信するターゲットのみを保持し、誤分割を減らして後処理速度を向上させることができます。この値を減少させるとより多くの分割結果が得られ、信頼度の低いターゲットを含む可能性がありますが、誤分割と後処理時間が増加する可能性があります。通常、デフォルト値から調整を開始します。

パラメータ範囲

[0, 1]、デフォルト値:0.5

重複フィルタ閾値

パラメータ説明

非最大値抑制(NMS)に使用されるIntersection over Union(IOU)閾値。複数の分割結果(マスクまたはボックス)の重複度がこの閾値を超える場合、信頼度の低い結果が抑制されます。

調整説明

この値を増加させると、より多くの重複結果の並存を許可し、ターゲットが密集して相互に遮蔽されるシーンに適用される可能性があります。この値を減少させると、重複結果をより積極的に除去し、各ターゲットが1つの最良結果のみを出力するようになります。デフォルト値は通常、ほとんどのシーンに適用されます。

パラメータ範囲

[0, 1]、デフォルト値:0.9

カテゴリ名

パラメータ説明

出力分割結果にカテゴリ名称(ID)を指定します。FastSAM自体は具体的なカテゴリを区別しませんが、このパラメータは後続処理(フィルタリング、統計など)時にこれらの分割結果をマークするために使用されます。

調整説明

アプリケーションシーンの必要に応じて、分割された物体に意味のあるカテゴリIDを付与します。

パラメータ範囲

「0~29」のカテゴリ名オプションを提供し、デフォルトは0です。

プロンプトワード

パラメータ説明

テキスト説明を入力し、モデルにテキスト内容に関連する物体を分割するよう導きます。例えば「bag」または「red box」を入力します。

調整説明

分割したいターゲットを簡潔で明確な名詞または短文で説明してみてください。カンマで複数のプロンプトワードを区切ることができます。例えば「a blue car, the traffic light」。テキストプロンプトの効果はモデルの理解能力に依存します。

テキストプロンプト閾値

パラメータ説明

テキストプロンプトを使用する場合、テキスト類似度スコアに基づいて分割結果をフィルタリングする閾値。類似度スコアがこの閾値より高い結果のみが保持されます。

調整説明

これは比較的敏感なパラメータで、実際の効果に基づいて調整が必要です。テキストプロンプトが期待する結果を分割できない場合、この閾値を下げることを試すことができます;関連性のない多くの結果が分割された場合、この閾値を上げることを試すことができます。この閾値は最終出力結果の信頼度スコアではないことに注意してください。通常、比較的低く設定されます。

パラメータ範囲

[0, 10]、デフォルト値:0.01