fc2ブログ

Entries

岡野原大輔『拡散モデル』

拡散モデルの数理的内容について扱った一冊。式展開は意外なほどに詳しく追っている。研究の先端をずっと追っている著者なので、もっとも参考になったのはDDPMのような、いまの拡散モデルの隆盛がどのような経緯で、どんな問題に対処しようとして登場してきたのかの整理がきわめて参考になる。その後は、拡散ステップを連続化した確率微分方程式としての解釈、条件付き生成、部分空間での次元を削減したモデリング、対称性を考慮したモデルといった発展方向、各分野に対する応用状況が書かれている。


まず尤度ベースモデルと、GANなど尤度をベースとしないモデルの比較から。尤度ベースモデルは、対数尤度を目的関数とするので安定した最適化問題により学習できる。また、学習がどの程度進んているかを尤度によって評価することができる。GANのような暗黙的生成モデルにはこうした利点はない。しかし尤度ベースモデルは分配関数(正規化項)やその勾配の計算が計算量的に困難という課題をもっている。これに対してはMCMCを使う手もあるが、データが高次元で多峰的の場合、サンプリング効率が悪いし、局所的に低いエネルギー領域に捕らわれてしまう。対数尤度の入力についての勾配であるスコア関数を使ったランジュバン・モンテカルロ法はこの点を緩和した。これがスコアベースモデルにつながる(p.8-14)。スコアベースモデルはさらに、等比数列的にノイズを大きくしていって、最終的にほとんど元のデータ分布が消えるようにする撹乱を考えることで、多峰性のある分布をモードの情報を活かしながら網羅することが期待される(p.36-39)。


入力に摂動を加えたあとの条件付き確率分布のスコアを学習すること(デノイジングスコアマッチング)は、元の確率分布のスコアを学習することと同じという、個人的には驚いた結果が証明される。実際、定数項を除いて一致する。デノイジングスコアマッチングにより、計算量や、経験分布から学習する際の過学習の問題が緩和される(p.23-26)。DDPMにおけるELBOの導出や、SBMとDDPMがシグナルノイズ比を使って統一した枠組みで理解できること辺りは、数式展開を細かく追う教育的配慮が見える。


確率微分方程式としての表現と、それを常微分方程式に変換した確率フロー常微分方程式については、(確率)微分方程式周りの自分の知識が足りないのであまりついていけず。確率フローに変換したときにスコア(対数尤度の勾配)が現れるあたりは興味深い。

スポンサーサイト



この記事にトラックバックする(FC2ブログユーザー)
https://exphenomenologist.blog.fc2.com/tb.php/1498-3f55e782

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

Appendix

プロフィール

坂間 毅 (Sakama Tsuyoshi)

Author:坂間 毅 (Sakama Tsuyoshi)
コンサルティングファームに所属。数学の哲学を専攻して研究者を目指し、20代のほとんどを大学院で長々と過ごす。しかし博士号は取らず進路変更。以降IT業界に住んでいる。

別館:note

検索フォーム

QRコード

QRコード