セグメント・エニシング(高速)

機能説明

このオペレータは、FastSAM(Fast Segment Anything Model)モデルを利用し、ユーザーが提供するプロンプト情報(バウンディングボックス、点、テキスト記述など)に基づいて、入力画像に対して高速なインスタンスセグメンテーションを実行します。画像内のプロンプトに対応する物体領域を識別し、セグメント化できます。

使用シナリオ

  • インタラクティブセグメンテーション:画像内の特定の関心対象物体を迅速にセグメント化する必要がある場合、プロンプトボックス、プロンプト点、またはパラメータのテキスト記述を入力することで、モデルをセグメンテーションに誘導できます。

  • ターゲット抽出:複雑な背景から特定のターゲットの輪郭情報を正確に抽出するために使用されます。

  • 自動注釈支援:自動注釈プロセスの一部として、簡単なプロンプトを通じてターゲットの初期セグメンテーションマスクを迅速に生成できます。

入力/出力

入力項目

画像:セグメンテーションを行うカラー画像(RGB形式である必要があります)。

ヒントポイント一覧:複数の点座標[X, Y]を含むリストで、セグメント化するターゲット領域を示します。たとえば、ターゲット上でいくつかの点をクリックします。

ツールチップリスト:複数のバウンディングボックス座標を含むリストで、各ボックスは4つの角点で定義され、セグメント化するターゲット領域を囲むために使用されます。

出力項目

テスト結果:セグメンテーション結果を含むリスト。各結果はセグメント化されたインスタンスを表し、そのバウンディングボックス(回転ボックスまたは水平ボックスの場合があります)、カテゴリ(デフォルトは0または指定されたカテゴリ)、信頼度スコア、およびセグメント化されたポリゴン輪郭を含みます。

パラメータ説明

このオペレータはFastsam Pythonライブラリに依存しています。お使いの環境にまだインストールされていない場合は、Qianyiの社内pypiソースにアクセスし、pip install fastsamを使用してインストールしてください。

  • プロンプトの組み合わせ:複数のプロンプト方式(点、ボックス、テキスト)を同時に使用できます。モデルはこれらの情報を統合してセグメンテーションを実行します。特定の種類のプロンプトのみを使用したい場合は、他のプロンプト入力が空であるか、接続されていないことを確認してください。

  • 入力画像:入力がカラーRGB画像であることを確認してください。

  • 単一画像処理:現在のオペレータ実装は、一度に1つの画像の処理のみをサポートしています。

  • プロンプト座標:点プロンプトとボックスプロンプトの入力座標は、画像ピクセル座標である必要があります。

重量ファイル

パラメータ説明

セグメンテーションに使用するFastSAMモデルの重みファイル(通常は.pt形式)を指定します。有効なモデルファイルを選択する必要があります。

パラメータ調整ガイド

タスクの要件とハードウェア能力に一致するモデルを選択してください。通常、より大きなモデル(FastSAM-xなど)は精度が高いですが速度が遅く、より小さなモデル(FastSAM-sなど)は速度が速いですが精度が若干低い場合があります。

GPUを有効にする

パラメータ説明

モデル推論計算にGPUを使用するかどうかを選択します。チェックした場合、コンピュータに利用可能なNVIDIAグラフィックカードと対応するCUDA環境があることを確認する必要があります。

パラメータ調整ガイド

GPUを有効にすると、処理速度が大幅に向上します。互換性のあるGPUがない場合は、チェックを外す必要があります(CPUを使用)。

画像サイズ

パラメータ説明

セグメンテーションのためにモデルに入力される前に、入力画像がスケーリングされるサイズ。

パラメータ調整ガイド

通常、画像サイズが大きいほどセグメンテーションの精度が高くなりますが、同時計算時間とGPU/CPUメモリ消費量も増加します。サイズが小さい場合はその逆です。一般的な値には640、1024などがあります。特定のアプリケーションシナリオに基づいて、精度と速度の間でトレードオフを行う必要があります。

パラメータ範囲

デフォルト値:640

信頼閾値

パラメータ説明

FastSAMの初期セグメンテーション結果をフィルタリングするための信頼度スコアのしきい値。このしきい値よりも高い信頼度のセグメンテーション結果のみが保持されます。

パラメータ調整ガイド

この値を大きくすると、セグメンテーションの出力結果が少なくなり、モデルが非常に確信しているオブジェクトのみが保持されるため、誤セグメンテーションを減らし、後処理速度を向上させることができます。この値を小さくすると、より多くのセグメンテーション結果が得られ、信頼度の低いターゲットが含まれる可能性がありますが、誤セグメンテーションや後処理時間が増加する可能性があります。通常はデフォルト値から調整を開始します。

パラメータ範囲

[0, 1],デフォルト値:0.5

オーバーラップフィルタのしきい値

パラメータ説明

非最大抑制(NMS)のための交差和集合率(IoU)のしきい値。複数のセグメンテーション結果(マスクまたはボックス)がこのしきい値を超えて重複する場合、信頼度の低い結果は抑制されます。

パラメータ調整ガイド

この値を大きくすると、より多くの重複結果が共存できるようになり、オブジェクトが密集し、互いに遮蔽し合うようなシーンに適している可能性があります。この値を小さくすると、重複結果がより積極的に除去され、各ターゲットが最適な結果を1つだけ出力するようになります。デフォルト値は通常、ほとんどのシナリオに適しています。

パラメータ範囲

[0, 1],デフォルト値:0.9

カテゴリー名

パラメータ説明

出力セグメンテーション結果にカテゴリ名(ID)を割り当てます。FastSAM自体は特定のカテゴリを区別しません。このパラメータは、後続の処理(フィルタリング、統計など)のためにこれらのセグメンテーション結果をタグ付けするために使用されます。

パラメータ調整ガイド

アプリケーションシナリオのニーズに応じて、セグメント化されたオブジェクトに意味のあるカテゴリIDを割り当てます。

パラメータ範囲

「0」から「29」までのカテゴリ名オプションを提供し、デフォルトは0です。

プロンプト

パラメータ説明

テキストコンテンツに関連するオブジェクトをセグメント化するようにモデルを誘導するためのテキスト記述を入力します。たとえば、「bag」または「red box」と入力します。

パラメータ調整ガイド

セグメント化したいターゲットを記述するために、簡潔で具体的な名詞またはフレーズを使用してみてください。コンマを使用して複数のプロンプトを区切ることができます。たとえば、「a blue car, the traffic light」。テキストプロンプトの効果は、モデルの理解能力に依存します。

テキストプロンプトのしきい値

パラメータ説明

テキストプロンプトを使用する場合、テキスト類似度スコアに基づいてセグメンテーション結果をフィルタリングするために使用されるしきい値。このしきい値よりも高い類似度スコアの結果のみが保持されます。

パラメータ調整ガイド

これは比較的敏感なパラメータであり、実際の結果に基づいて調整する必要があります。テキストプロンプトが期待される結果をセグメント化しない場合は、このしきい値を下げてみてください。多くの無関係な結果がセグメント化される場合は、このしきい値を上げてみてください。このしきい値は最終的な出力結果の信頼度スコアではなく、通常は比較的低く設定されることに注意してください。

パラメータ範囲

[0, 10],デフォルト値:0.01