🟠 大型モデルプロンプト分割

機能説明

オペレーターはSegment Anything Model大型モデル、すなわちSAMモデルを統合しています。SAMはユーザーが提供するリアルタイムプロンプト点とプロンプト枠に基づき、追加の訓練を必要とせずに画像内の任意の物体を分割することができます。

  • プロンプト点:ターゲット物体上に1つまたは複数の点を提供し、モデルに分割を誘導させます。

  • プロンプト枠:大まかな囲みボックスを提供し、モデルに枠内の主要物体を分割させます。

使用シーン

訓練されたことのない物体の分割が必要な場合に適用されます。

入力・出力

入力項目

画像:分割を実行する単一カラー画像。

プロンプト点リスト:N個の(X,Y)ピクセル座標を含むリスト。分割する物体上の1つまたは複数の点を指定するために使用されます。

プロンプト枠リスト:1つまたは複数の2D矩形枠。モデルに枠内の物体を分割するよう促すために使用されます。

出力項目

検出結果:検出実例リスト。リスト内の各要素は分割された物体を表し、ユーザーが指定したカテゴリー、モデルが与えた信頼度スコア、輪郭ポリゴンを含みます。

パラメータ説明

  • このオペレーターの実行はPythonライブラリsegment-anythingに依存しています。お使いの環境にまだインストールされていない場合は、pip install segment-anythingコマンドを使用してインストールしてください。

  • 入力端の「プロンプト点リスト」と「プロンプト枠リスト」は少なくとも1つを提供する必要があります。そうでなければオペレーターは実行できません。入力は画像処理や点群処理変換、例えば点群バウンディングボックスから2Dバウンディングボックスへの変換、点群点からピクセル点への変換などのノードを通じて取得できます。

重みファイル

パラメータ説明

公式リリースのSAMモデル重みファイル(.pth形式)を読み込みます。モデルのサイズが精度、速度、リソース消費を決定します。 モデルダウンロードアドレス(内部ネットワーク):

調整説明

Baseモデルは速度が最も速く、リソース占有が最小で、リアルタイム性要求の高いシーンに適用されます。Large/Hugeは精度がより高いですが、速度がより遅く、より多くのGPUメモリが必要です。実際の応用ニーズに応じて適切なモデルファイルを選択してください。

GPU有効化

パラメータ説明

オペレーターがCPUまたはGPUで計算を行うかを制御します。

調整説明

  • 有効(推奨):SAMモデルは計算量が極めて大きく、特にLargeとHugeモデルの場合、GPU上で実行しないと受け入れ可能な性能を得ることはほぼ不可能です。

  • 無効:CPUで計算を行い、速度は非常に遅くなります。

信頼度閾値

パラメータ説明

SAMは生成された各分割結果に対してIOU予測スコア(信頼性)を与え、この閾値を通じてそのスコア以下の分割結果をフィルタします。

調整説明

  • 閾値を上げる:より信頼性の高い分割結果を得られますが、正しい分割を一部フィルタしてしまう可能性があります。

  • 閾値を下げる:フィルタリングがより緩やかになりますが、より多くの誤った分割を引き起こす可能性があります。

パラメータ範囲

[0,1]、デフォルト値:0.5

複数結果出力

パラメータ説明

曖昧性を生じる可能性のあるプロンプトに対して、モデルは論理的に合理的な複数の分割結果を生成できます。

調整説明

  • 無効(デフォルト):単一プロンプトに対して、オペレーターはモデルが最も信頼できると考える1つの分割結果のみを出力します。

  • 有効:単一プロンプトに対して、オペレーターは複数の可能な分割結果を出力します(例:1つの物体、物体の一部分、その物体を含むより大きな全体)。

カテゴリー名

パラメータ説明

最終出力される分割結果に対して手動でカテゴリー名を指定するために使用されます。

調整説明

SAM自体は具体的な物体を認識せず、分割された結果の「カテゴリー」はこのパラメータで指定されます。