AIエージェント時代の「セマンティックセグメンテーション」第2回：SAM 3 ― 「言葉で指示するだけ」の革命

はじめに ― 「赤い帽子を全部見つけて」

あなたがAIに、1枚の写真を見せて「赤い帽子をかぶっている人を全員見つけて」と頼んだとします。

数年前なら、あなたは画像上の赤い帽子を1つずつクリックして「ここ」と指定する必要がありました。帽子が10個あれば、10回クリックする。100枚の画像なら、何百回も同じ作業を繰り返す。

2025年11月、MetaがリリースしたSAM 3（Segment Anything Model 3）は、この作業を根本から変えました。「赤い帽子」とテキストで入力するだけで、画像内の赤い帽子をすべて検出し、ピクセル単位で正確にセグメンテーション（分離）してくれます。動画であれば、フレームをまたいで追跡もしてくれます。

前回の第1回では、セマンティックセグメンテーションの基本原理と身近な応用を解説しました。第2回の今回は、この技術を劇的に進化させたSAM 3に焦点を当て、なぜこれがAIエージェント時代の基盤技術になるのかを解説します。

3年間で起きた3世代の進化

SAM 3を理解するには、Metaが2023年から進めてきた「Segment Anything」プロジェクトの流れを知る必要があります。わずか3年で3世代のモデルが登場し、セグメンテーションの概念そのものが変わりました。

SAM 1（2023年4月）は、画像上の1点をクリックするだけで、その場所にある物体をセグメンテーションできるモデルでした。クリック、バウンディングボックス（四角い枠）、マスクなどの「視覚的なプロンプト」で指示を与える方式です。ゼロショット（追加学習なし）でほぼどんな物体でも切り出せるその汎用性は衝撃的で、NvidiaのJim Fan氏はこれを「CVのGPT-3モーメント」と評しました。

SAM 2（2024年7月）は、静止画から動画へと対応範囲を拡大しました。1フレーム目で対象を指定すれば、動画全体を通してその物体を追跡し続けます。メモリモジュールを搭載し、対象が一時的に隠れても再出現時に認識を維持できるようになりました。

SAM 3（2025年11月）は、そこからさらに飛躍しました。最大の変化は、視覚的なプロンプト（クリック・枠）に加えて、テキストプロンプトと画像例によるプロンプトに対応したことです。Metaはこれを「Promptable Concept Segmentation（PCS）」と呼んでいます。

PCSがこれまでのセグメンテーションと根本的に異なるのは、「1つの物体を指して切り出す」のではなく、「概念を指定して、その概念に合致するものをすべて見つけ出す」という点です。「黄色いスクールバス」と入力すれば、画像内のスクールバスがすべてセグメンテーションされる。「縞模様の猫」と入力すれば、何匹いても全部見つかる。

この変化をひとことで言うと、セグメンテーションが「ツール」から「インターフェース」になったということです。ユーザーやAIエージェントは、もう画面を指差す必要がない。言葉で「何を見たいか」を伝えるだけで、視覚的な理解が得られるようになったのです。

SAM 3のアーキテクチャ ― 検出・セグメンテーション・追跡を1つのモデルで

SAM 3が革新的なのは、その能力だけでなく、アーキテクチャ（モデルの構造）にもあります。

従来、コンピュータビジョンの世界では「物体検出」「セグメンテーション」「動画追跡」はそれぞれ別のモデルで行うのが一般的でした。検出モデルの出力をセグメンテーションモデルに渡し、さらに追跡モデルに渡す。3つのモデルを直列につないでパイプラインを組む必要があった。

SAM 3はこれを1つのモデルに統合しました。その構造は、大きく分けて3つのコンポーネントで構成されています。

Perception Encoder（知覚エンコーダ）： 画像と動画の両方を処理できる統合的なビジョンエンコーダです。入力された画像や動画フレームから、物体の特徴を抽出します。テキストプロンプトもこのエンコーダに入力され、視覚情報と言語情報が統一的に処理されます。

DETR型検出器： 画像内の物体を検出し、セグメンテーションマスクを生成します。テキストプロンプト（「赤い帽子」）や画像例に基づいて、該当する全インスタンスを見つけ出します。ここで重要なのがPresence Headという仕組みで、「その物体が画像内に存在するか」と「存在するならどこにあるか」を分離して判断します。これにより、似たテキストプロンプトが来ても混同せず、検出精度が大幅に向上しています。

SAM 2ベースのトラッカー： 動画処理時に、検出された物体をフレームをまたいで追跡します。SAM 2のメモリモジュールを継承しており、対象が一時的に画面外に出ても追跡を維持できます。

このアーキテクチャの利点は明確です。3つの別々のモデルを管理する代わりに、1つのモデルで検出・セグメンテーション・追跡が完結する。開発・運用のコストが大幅に下がり、推論速度も向上します。

性能面では、H200 GPU上で1画像あたり30ミリ秒（100以上のオブジェクトを検出する場合）という高速推論を実現しています。動画処理では追跡対象の数に応じてレイテンシが増加しますが、約5つの同時追跡オブジェクトまではほぼリアルタイムの性能を維持します。

SAM 3 Agent ― AIエージェントが「目」を持つ瞬間

SAM 3の能力だけでも十分に革新的ですが、Metaはさらにその先を示しました。SAM 3 Agentです。

SAM 3単体は「赤い帽子」「縞模様の猫」のような短い名詞句に最適化されています。しかし実世界のタスクでは、もっと複雑な指示が必要になります。「座っている人で、プレゼント箱を持っていない人を見つけて」「カメラに一番近い、首輪をつけていない犬はどれ？」といった指示です。

SAM 3 Agentは、SAM 3とマルチモーダルLLM（大規模言語モデル）を組み合わせることで、こうした複雑な指示に対応します。その動作の流れはこうです：

ユーザーの複雑な指示をMLLMが解釈する
MLLMが指示を分解し、SAM 3に渡す短い名詞句のクエリを生成する
SAM 3がセグメンテーションを実行し、結果をMLLMに返す
MLLMが結果を検証し、必要に応じてクエリを修正して再度SAM 3に問い合わせる
満足のいく結果が得られるまでこのループを繰り返す

要するに、LLMが「頭脳」、SAM 3が「目」という役割分担です。LLMが言語を理解して計画を立て、SAM 3がその計画に基づいて視覚世界を理解する。これはまさに、AIエージェントが物理世界を「見る」ためのアーキテクチャです。

性能も注目に値します。SAM 3の論文によると、SAM 3 AgentはGemini 2.5 Proと組み合わせた場合、推論を必要とするセグメンテーションのベンチマーク「ReasonSeg」においてval 77.0 gIoUを達成しました。それまでの最高スコア（val 65.0）を大きく上回っています。なお、組み合わせるMLLMによって性能は変動し（Qwen2.5-VL 72Bの場合はval 74.6、Llama4 Maverickの場合はval 68.5）、LLMの推論能力がそのままセグメンテーション精度に直結する構造です。しかもこのスコアは、推論セグメンテーション専用のデータで追加学習することなく達成されています。汎用的なモデルの組み合わせで専門モデルを超えた、という点が重要です。

ベンチマーク ― 数字で見るSAM 3の実力

SAM 3の性能を、具体的な数字で確認しておきましょう。

Metaは従来のベンチマークでは評価しきれないとして、新たにSA-Co（Segment Anything with Concepts）というベンチマークを構築しました。SA-Coの評価セットは約21万の固有概念を含み、従来のセグメンテーションベンチマークの50倍以上の概念カバレッジを持ちます。

このSA-Coのゴールドベンチマーク（バウンディングボックス検出タスク）において：

SAM 3：cgF1スコア 55.7
OWLv2（Google）：24.5
DINO-X：22.5
Gemini 2.5（Google）：14.4

SAM 3は2番手の2倍以上のスコアを達成しています。

またSA-Coのベンチマーク全体では、Metaの発表によればSAM 3は人間の性能の約75%に到達しています（cgF1指標での評価）。残りのギャップは主に「小さな窓」「居心地の良い部屋」のような曖昧で主観的な概念に起因するものです。

LVISデータセットのゼロショットセグメンテーションでは、SAM 3のmask AP（マスク平均精度）は48.8に達し、従来の最高水準を大幅に上回りました。

学習データの規模も桁違いです。Metaが構築したSA-Coデータセットは、約520万枚の画像と52,500本の動画を含み、400万以上の固有名詞句と5,200万枚の高品質マスクが付与されています。さらに合成データセット（SA-Co/SYN）には約14億枚のマスクが含まれており、これらすべてがモデルのトレーニングに使用されています。この大規模なデータは、人間のアノテーターだけでなく、Llama 3.2をベースとしたAIアノテーターとAI検証器を組み合わせた「人間+AIのデータエンジン」によって生成されました。

ビジネスへのインパクト ― 「誰でも使える画像認識」の時代

技術的な革新は理解できた。では、ビジネスの現場でSAM 3は何を変えるのか。

EC・小売：商品画像処理の革命

ECサイトの商品画像処理は、SAM 3の恩恵をもっとも直接的に受ける領域です。「白い背景に商品を切り抜く」作業は、従来はPhotoshopでの手作業か、画像処理の外注によるものでした。SAM 3を使えば、「商品」というテキストプロンプトを与えるだけで、画像内の商品を自動でセグメンテーションできます。数万SKUの画像を一括処理することも技術的に可能です。

さらに重要なのが、商品画像の属性自動認識です。セグメンテーション結果を分析すれば、商品の色、形状、素材感などを自動的に構造化データとして抽出できます。これは「AIが買い物をする時代」シリーズで解説したエージェンティックコマースの文脈で、AIエージェントが商品を理解し推薦するための基盤情報になります。

コンテンツ制作：動画編集の自動化

動画内の特定のオブジェクトや人物を選択・加工する作業は、従来はフレーム単位の手作業が必要でした。SAM 3は「緑のジャケットの人」と指示するだけで対象を動画全体にわたって追跡し、マスクを生成できます。Metaはすでに、Instagram向け動画制作アプリ「Edits」やAI動画生成プラットフォーム「Vibes」にSAM 3を組み込む計画を発表しています。

品質管理・製造

工場の生産ラインでは、製品の外観検査にセマンティックセグメンテーションが使われています。SAM 3のファインチューニング（カスタムデータでの追加学習）機能を使えば、自社製品の検査に特化したモデルを構築できます。従来のモデルと異なり、テキストで「傷」「変色」「歪み」と指定するだけで検出対象を柔軟に変更できる点が実務上のメリットです。

Webアクセシビリティ：Altテキストの精度向上

前回も触れましたが、画像内の要素を正確に認識してAltテキスト（代替テキスト）を自動生成する取り組みが進んでいます。SAM 3の概念セグメンテーションは、画像内の要素を意味レベルで分解できるため、「犬が2匹とフリスビーが写った公園の写真」のような詳細な画像説明を自動で構築するための基盤技術になります。

科学研究・環境保全

MetaはConservation X Labs（CXL）と提携し、SAM 3を野生動物のモニタリングに活用しています。コスタリカのOsa Conservation、ペルーのLos Amigos Biological Stationなど7つの研究パートナーから収集されたカメラトラップ映像をもとに、99種の動物をセグメンテーション・追跡する研究用データセット「SA-FARI」を構築・公開しました。また、海洋研究機関MBARIが運営するFathomNetでも、SAM 3による水中生物のセグメンテーションマスクとベンチマークが公開されています。

SAM 3Dへの拡張 ― 2Dから3Dへ

SAM 3と同時に発表されたSAM 3Dにも触れておく必要があります。

SAM 3Dは、1枚の写真からオブジェクトや人体の3Dモデルを再構成する技術です。Metaはこの技術をすでにFacebook MarketplaceのView in Room機能に搭載しており、ユーザーは出品されたランプやテーブルなどの家具を、自分の部屋にAR（拡張現実）で配置して確認できます。

SAM 3が画像を「意味で分節」し、SAM 3Dがその結果を「3D空間に拡張」する。この組み合わせは、ECサイトの商品表示、不動産のバーチャル内見、工業デザインのプロトタイピングなど、物理世界とデジタル世界が交差する多くの領域で活用が期待されます。

オープンソースという戦略的選択

SAM 3のもう1つの重要な特徴は、完全にオープンソースで公開されていることです。

MetaはGitHub（facebookresearch/sam3）を通じて、モデルの重み、推論コード、ファインチューニング用コード、そしてSA-Coの評価データセットを公開しています。ライセンスもオープンで、研究目的だけでなく商用利用にも道が開かれています。

これは企業にとって大きな意味があります。

まず、自社データでのカスタマイズが可能です。汎用モデルをそのまま使うのではなく、自社の製品画像や検査画像でファインチューニングすることで、特定ドメインに特化した高精度モデルを構築できます。

次に、参入障壁の低下です。数年前なら、セマンティックセグメンテーションを自社に導入しようとすれば、大量の学習データの作成、モデルの設計・学習、推論環境の構築に膨大なコストがかかりました。SAM 3があれば、ファインチューニング用のデータさえ準備すれば、最先端の基盤モデルの上に自社ソリューションを構築できます。

Ultralytics（YOLOの開発元）はすでにSAM 3をバージョン8.3.237以降に統合しており、Pythonの数行のコードでSAM 3を呼び出せる環境が整っています。

SAM 3の限界 ― 率直に言えること

SAM 3の能力は印象的ですが、万能ではありません。論文自体も率直にいくつかの限界を認めています。

複雑な言語表現への制約。 SAM 3のテキストプロンプトは、短い名詞句（「赤い帽子」「縞模様の猫」）に最適化されています。「カメラに最も近い、首輪をつけていない犬」のような複雑な指示は、SAM 3単体では処理できません。SAM 3 Agentのように、LLMとの組み合わせが必要になります。

曖昧な概念の扱い。 「小さな窓」「居心地の良い部屋」のように主観的・文脈依存的な概念は、人間にとっても判断が分かれるものです。SAM 3の人間比約75%という数字のギャップは、主にこうした曖昧な概念に起因します。

ニッチドメインでの精度。 医療画像、熱画像、産業特化の画像など、学習データに十分に含まれていないドメインでは、ゼロショット性能が低下します。こうした領域では、ファインチューニングが必須です。

動画の大規模処理。 多数のオブジェクトを同時に追跡する場合、推論コストは追跡対象数に比例して増加します。5つ以上のオブジェクトを同時追跡する場合、リアルタイム性能の維持にはマルチGPU環境が必要になる可能性があります。

これらの限界を踏まえた上で、SAM 3は現時点で最も汎用的で実用的なセグメンテーション基盤モデルであることは間違いありません。

まとめ ― セグメンテーションが「インフラ」になる日

SAM 3が示したのは、セマンティックセグメンテーションが専門家のためのツールから、あらゆるAIシステムに組み込まれるインフラへと変貌したということです。

SAM 1で「何でも切り出せる」ようになり、SAM 2で「動画も追える」ようになり、SAM 3で「言葉で指示できる」ようになった。この3年間の進化は、セグメンテーションが人間の介在を必要としなくなる方向に一直線に進んでいます。

そして、SAM 3 Agentの存在が示すように、この技術はAIエージェントの「目」としての役割を担い始めています。エージェントが物理世界を理解し、自律的に判断し、行動するための知覚基盤。それがSAM 3の本質的な位置づけです。

しかし、AIエージェントにとっての「世界」は物理世界だけではありません。デジタル世界、つまりWebもまた、エージェントが「見て」「理解して」「操作する」対象です。 そして実は、Web上でも同じように「意味の分節化」が急速に進んでいます。

次回の第3回では、セマンティックHTML、llms.txt、そして2026年2月に発表されたWebMCPという3つの技術を通じて、Webサイトがどのように「AIエージェント対応」に進化しつつあるのかを解説します。

参考情報

Meta AI「Introducing Meta Segment Anything Model 3 and SAM 3D」（2025年11月）
Meta「New Segment Anything Models Make it Easier to Detect Objects and Create 3D Reconstructions」（2025年11月）
SAM 3論文「SAM 3: Segment Anything with Concepts」（arXiv, 2025年11月 / ICLR 2026投稿中）
SA-FARI論文「The SA-FARI Dataset: Segment Anything in Footage of Animals for Recognition and Identification」（arXiv, 2025年11月）
Conservation X Labs「SA-FARI: Open Video Dataset」
GitHub「facebookresearch/sam3」
Ultralytics「SAM 3: Segment Anything with Concepts - YOLO Docs」
Roboflow「What is Segment Anything 3 (SAM 3)?」（2025年11月）
Encord「Segment Anything Model 3 (SAM 3): What to Expect」（2025年10月）
Datature「SAM 3: A Technical Deep Dive」（2025年11月）
Edge AI and Vision Alliance「SAM3: A New Era for Open‑Vocabulary Segmentation and Edge AI」（2025年11月）
PyImageSearch「SAM 3: Concept-Based Visual Understanding and Segmentation」（2026年1月）
InfoQ「SAM 3 Introduces a More Capable Segmentation Architecture」（2025年11月）

AI技術のビジネス活用やWebサイトのAIエージェント対応について、具体的なご相談はunTypeまでお気軽にお問い合わせください。

この記事をシェアする

X (Twitter) LinkedIn Facebook Bluesky Threads

はじめに ― 「赤い帽子を全部見つけて」

3年間で起きた3世代の進化

SAM 3のアーキテクチャ ― 検出・セグメンテーション・追跡を1つのモデルで

SAM 3 Agent ― AIエージェントが「目」を持つ瞬間

ベンチマーク ― 数字で見るSAM 3の実力

ビジネスへのインパクト ― 「誰でも使える画像認識」の時代

SAM 3Dへの拡張 ― 2Dから3Dへ

オープンソースという戦略的選択

SAM 3の限界 ― 率直に言えること

まとめ ― セグメンテーションが「インフラ」になる日

参考情報

山下太郎

Categories

Related Posts

AIエージェント時代の「セマンティックセグメンテーション」第1回：セマンティックセグメンテーションとは何か ― あなたのスマホはもう使っている

AIエージェント時代の「セマンティックセグメンテーション」 第2回：SAM 3 ― 「言葉で指示するだけ」の革命

はじめに ― 「赤い帽子を全部見つけて」

3年間で起きた3世代の進化

SAM 3のアーキテクチャ ― 検出・セグメンテーション・追跡を1つのモデルで

SAM 3 Agent ― AIエージェントが「目」を持つ瞬間

ベンチマーク ― 数字で見るSAM 3の実力

ビジネスへのインパクト ― 「誰でも使える画像認識」の時代

SAM 3Dへの拡張 ― 2Dから3Dへ

オープンソースという戦略的選択

SAM 3の限界 ― 率直に言えること

まとめ ― セグメンテーションが「インフラ」になる日

参考情報

山下 太郎

Categories

Related Posts

AIエージェント時代の「セマンティックセグメンテーション」 第1回：セマンティックセグメンテーションとは何か ― あなたのスマホはもう使っている

AIエージェント時代の「セマンティックセグメンテーション」第2回：SAM 3 ― 「言葉で指示するだけ」の革命

山下太郎

AIエージェント時代の「セマンティックセグメンテーション」第1回：セマンティックセグメンテーションとは何か ― あなたのスマホはもう使っている