Semi-Supervised Learning Overview

Motivation

アノテーションコストの低減（専門家しかアノテーション作業ができない、アノテーションしなければいけないデータの量が多い、セグメンテーションのアノテーションは大変）、アノテーション作業の属人化の解消等の理由から、データセットの一部に対してアノテーションをしてアノテーションされていないデータも利用して精度向上を図りたいというモチベーションのもと半教師あり学習（Semi-Supervised Learning）という学習手法が存在しています。

半教師あり学習のアルゴリズムは通常の教師あり学習と教師なし学習を組み合わせたような形で、アノテーションされていないデータをいかにして学習に組み込むかがポイントになっていると考えています。

半教師あり学習にはConsistency RegularizationとEntropy Minimizationという2つの大きな考え方があります。半教師あり学習として提案されている手法は以下の2つのうちのどちらか、またはその両方として理解することができます。

Consistency Regularization

Consistency Regularizationは「アノテーションされていない同じデータに対して、異なる摂動を加えて入力したモデルの予測は一貫したものになるべき」という考え方のもと、一貫性があるようにするペナルティをかける正則化手法です。
正則化のパターンとしては、BCEやMSE（摂動を加えた入力に対するモデルの出力と、摂動が加えられていない入力に対するモデルの出力との間）、KLダイバージェンス（クラス分布間）等があります。

摂動の加え方には、画像の反転、回転、切り取り、Adversarial Attacks等様々な手法があるようです。

arxiv.org

Entropy Minimization

以下の記事の説明がわかりやすいので引用させていただきます。

www.skillupai.com

Entropy Minimizationは「決定境界は特徴空間上でデータが密集しているところを通るべきでない」という考えのもと、モデルから出力されるConfidence Scoreを高くするように導く手法です。

N個の値をとる確率変数のエントロピーが最大になるのは、N個の値(Confidence Score)がすべて1/Nで等しい場合なので、そのようにモデルが予測を出すのは曖昧に判断していると考えることができます。エントロピーを最小にすれば、モデルの予測ははっきりしていると考えることができそうです。

Entropy Minimizationのイメージ — Entropy Minimization

papers.nips.cc

Pseudo-Labeling

Entropy Minimiazationの有名な手法としてはPseudo-Labelingが挙げられます。 Pseudo-Labelingでは、最もConfidence Scoreが高く出力されたクラスを1、他を0とする疑似的なone-hotベクトルに変換してラベルを作成します。

Pseudo-Labelingを使ったSelf-Training(後述)の学習の流れとしては以下のようなイメージです。

手持ちのデータを使って学習されたモデルで未知のデータに対して予測をして、高いConfidence Scoreを出したものにラベルを付与する。
ラベルが作成されたデータはアノテーションがされたデータとして追加され、通常の教師あり学習と同じように学習をして1に戻る。

Pseudo-Labelingについて調べていると、Kaggleでよく使われる手法の1つだということがわかりました。私はまだ機械学習コンペのまともな参加経験がないのですが、Pseudo-Labelingは第3回全国医療AIコンテストで出てきたのが記憶にありました。

zenn.dev

Methods of Semi-Supervised Learning

ここまでで、半教師あり学習アルゴリズムの基本となる考え方を見てきました。
半教師あり学習のアルゴリズムもたくさんありますが、大きく分類器による手法とクラスタリングのようなデータの分布に基づく手法の2つに分けることができます。

Classifier-based methods

(画像)分類器を使った半教師あり学習はブートストラップ法と称されます。

Self-Training

Self-Training(自己学習)は、Pseudo-Labelingで説明したとおりアノテーションされていないデータを分類器の予測に通して高いConfidence Scoreが出力されたデータをアノテーションされたデータとして教師データに加え、再度学習を繰り返します。

直感的には、早い段階で教師データとして加えられたデータが誤ったクラスのものであれば精度の良い分類器を作るのは難しいように感じます。

Co-Training

Co-Training(共学習)は、各データに対して2つの異なる視点(素性)が存在する場合の問題設定で、各視点の2つの分類器で別々に学習されます。Self-Trainingと同様に、高いConfidence Scoreが出力されたアノテーションされていないデータをもう片方の分類器に渡すようにして2つの分類器で情報を相互に補完することで学習が進められます。

例えば、Webページの分類器を作るときの2つの視点はそのページに出現する文字とハイパーリンクに出現する文字に分けることができます。

https://dl.acm.org/doi/10.1145/279943.279962