【Now Reading】A Disentangling Invertible Interpretation Network for Explaining Latent Representations

はじめに

読んでる最中の論文についてまとめる。

読んでいて気づいたけど、自身の論文を大量に引用していて、前提とする知識が多すぎる。。。
結構時間がかかりそう。

まだまだ読見込んでいる段階なので、ちょっとづつ書き足していきます。
そのうち実装もしたいなと思っているので、誤りや解釈違いがあればご指摘ください

タイトルは「A Disentangling Invertible Interpretation Network for Explaining Latent Representations」
https://arxiv.org/abs/2004.13166

ちなみに著者によるPyTorchの実装も存在する。
github.com

関連する研究にはInfo GANやβ-VAE、Factor VAEなどがある。

端的にどういう論文か

タイトルにある通り、ポイントは潜在変数がInvertible Interpretation（潜在表現が可逆変換可能で変換可能な空間で操作可能）でかつdisentangled representation（意味づけされた潜在表現）なことを特徴にした研究だと思う。

f:id:elda27:20200629214051p:plain
Hyunjik Kim, Andriy Mnih ; Proceedings of the 35th International Conference on Machine Learning, PMLR 80:2649-2658, 2018.

まず、disentangled representationとは潜在変数の各次元が独立で人が解釈可能な特徴量を指す（と思う）。
各次元が独立＝各次元で意味が重複しないことを示している。
上の図はFactor VAEの論文から拝借してきたものだ。
各行はLatent traversal（潜在変数をある次元について線形に変化させる操作）することで得られた画像である。
それぞれ異なるcomponent（どの要素が変化しているかは画像の右側に書いてある）が変化していることが分かる。
これがdisentangled representationを持つメリットである。

f:id:elda27:20200629212230p:plain
続いて上の図はInvertible Intepretationを示している。
ある $X_1$ と $X_2$ があったときに $X_1$ から $X_2$ への線形な変換とは何かを考える際に単純に $X_1$ と $X_2$ それぞれから抽出した潜在変数を補完することは果たして正しい操作なのかということに言及している（ように思う、たぶん）。
この図はおそらく一般的なVAEでは間違いなく当てはまるのだけれども、果たしてFactor VAEのようなネットワークでも同様なことが言えるかは疑問符が付く。

Invertible Transformation of Hidden Representations

f:id:elda27:20200629224408p:plain
以下の文字が頻出するのでそれぞれメモ的に残しておく。
$f(x) = G \circ E(x) \\ f(x): 何らかのネットワーク \\ E(x): 潜在変数 z を生成するネットワーク \\ G: 潜在変数 z からある出力を得る f のサブネットワーク \\$
おおむね、Encoder, Decoder型のネットワークを想像して問題ない。
論文中では、特定のネットワークに依存しない内容で書かれているため、このような表現になっているとみられる。
また $\tilde{z}$ と $z$ の違いとして $\tilde{z}=T(z)$ かつ $\tilde{z}=T(z)$ である。したがって、 $\tilde{z}$ は人が解釈可能な潜在変数でと $z$ はそれを特に満たさないとみられる。

また、 $T$ は逆変換が可能で、 $z$ から $z^*$ へのlatent traversalは $z \rightarrow z^* \tilde{z} := T^{-1}(T(z)*)$ とも書かれている。

ここの中身はSupplementary Materialsに詳細が書かれていて、 $T$ はCoupling block, ActNorm, Shuffling layersから構成されているらしい。
色々調べているFLOWベース生成モデルでは一般的に使われている構成のようでGLOWやNICEなどいずれも同様な構成になっていた。
FLOWとか全然知らないので、勉強中。
下記のリンクは勉強用のメモ。

qiita.com
qiita.com
peluigi.hatenablog.com

Disentangling Interpretable Concepts

解釈可能な潜在変数の持ち方に関する話。
ぶっちゃけ式変形がわかってない。Supplemental Materialを読めと書いているが一旦保留。

最終的なロスは下記の通り。
f:id:elda27:20200630205129p:plain
$z=E(x)$ で $x$ は入力、 $F$ はsemantic conceptsのindexで、要は $K$ 次元の人間が理解可能な概念のindexを指す。
$\sigma_{ab}in(0,1)$ は $\tilde{z^a}$ と $\tilde{z^b}$ の正の相関を離散化したもの、
$T'(z)=|T(z)|$ で表される。

本当によくわかってない。

Estimating Dimensionality of Factors

$\tilde{z}$ が幾つの次数を持つべきかという話。
スコア $s_F$ 自体はF番目のsemantic conceptについてペアとなる画像同士から計算される相関係数である。
f:id:elda27:20200630222453p:plain
端的に言えば、コンセプトを同じくする画像同士は $E(\cdot)$ が抽出する $z$ の相関係数の和は高くなるはずということだと思う。