教師なしのセグメンテーション

2023年4月24日
読了時間: 4分

基本概念

unsupervised learning (教師なし学習）は、ラベルが必要のないデータセットで学習して、モデルを構築する機械学習の形式です。

正確な出力データがないため、分類問題には適用できません。

教師なし学習の手法は以下のようなものがあります。

クラスタリング
異常検出
ニューラルネットワーク

本記事は教師なし学習を使って、セグメンテーションに適用する以下の三つ手法を紹介します。

WNET
IEM
SAM

WNET（または, U-Net)

WNET（または、U-Net）は、医療画像解析などの領域で幅広く使用されているセグメンテーションのための畳み込みニューラルネットワーク（CNN）アーキテクチャの一種です。

WNETのアーキテクチャは、2つのCNNネットワークが接続されたエンコーダ-デコーダモデルです。エンコーダは、入力画像を畳み込んで特徴マップ表現にエンコードします。一方、デコーダは、エンコーダでエンコードされた特徴マップを受け取り、各ピクセルを予測するために畳み込み層を使用して画像を復元します。エンコーダとデコーダは、対応するレイヤーでつながっており、より高度な特徴が得られます。このようなアーキテクチャの構造により、WNETはセグメンテーションタスクに優れた性能を発揮します。

WNETは、医療画像解析で腫瘍や器官のセグメンテーションに広く使用されており、研究者や開発者から注目されています。また、WNETはその単純さと柔軟性から、他の画像セグメンテーションタスクにも使用されています。

IEM(Iterative Expand and Merge)モデル

　IEMは、2つの主要なステップで構成されています。最初のステップは、拡張（Expand）ステップで、ここでは、初期的な粗いセグメンテーションを生成します。このステップでは、入力画像を畳み込みネットワークに送り、各ピクセルに対して予測を行います。予測された各ピクセルは、その領域に含まれる可能性があることを示すスコアが付けられます。

　次のステップは、マージ（Merge）ステップで、ここでは、拡張ステップで生成された個々のセグメンテーションを結合し、最終的なセグメンテーションを生成します。このステップでは、2つの拡張されたセグメンテーションを選択して、その重なりを計算します。重なりが一定の閾値を超える場合、2つのセグメンテーションは結合され、より正確なセグメンテーションが生成されます。このプロセスは、必要なまで繰り返されます。

　IEMは、医療画像解析のセグメンテーションタスクに非常に有効であることが示されており、特に脳MRI画像セグメンテーションに使用されています。IEMは、拡張とマージの2つのステップに分けられているため、非常に柔軟であり、異なるネットワーク構成に適応できます。さらに、IEMは、既存の畳み込みニューラルネットワークのアーキテクチャと簡単に組み合わせることができます。

SAM (segmen anything model)モデル

SAM (Segment Anything Model) は、2021 年に発表された画期的なセグメンテーションモデルです。従来のセグメンテーションモデルは、特定のオブジェクトや領域を識別するために、事前に定義されたクラスラベルを使用する必要がありましたが、SAM は、クラスラベルを必要とせず、どんな種類のオブジェクトでもセグメンテーションできるという革新的な手法を提供します。

SAM モデルは、Mask R-CNN と呼ばれる従来の物体検出モデルを拡張したものです。従来の Mask R-CNN は、物体検出を行った後に、各オブジェクトを個別にセグメンテーションしていました。しかし、SAM モデルでは、オブジェクト候補領域を展開し、重複部分をマージすることで、複数のオブジェクトを同時にセグメンテーションできます。

SAM モデルの最も優れた点は、画像内のすべてのオブジェクトを同時にセグメンテーションできる点です。この手法により、従来のセグメンテーション手法よりも高い精度が実現されました。また、SAM モデルは、物体の形状やサイズ、位置、向きなどに対して非常に頑健であり、様々なタスクに応用することができます。

SAM モデルは、医療画像解析、自動運転、映像編集、セキュリティ監視など、多くの分野で活用されています。今後も、SAM モデルの改良により、さらなる高精度なセグメンテーションが期待されます。