深層学習系の読んだ論文まとめ

文系から独学で勉強を始めたので元々論文を読む習慣がなく、慣れるために少しずつためていっています。

論文の読み方についてはmoocsではお馴染み、アンドリュー先生によるこちらを参考にさせていただいています。

ainow.ai

CNN
- ImageNet Classification with Deep Convolutional Neural Networks
セマンティックセグメンテーション
可視化
- Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

CNN

ImageNet Classification with Deep Convolutional Neural Networks

https://dl.acm.org/doi/10.1145/3065386

キーワード
- ImageNet
- Convolution
- ReLU
- Dropout
熟読度
- 1時間程度でさくっと。
著者（たち）は何をやり遂げようとしているのか
- CNNを使用して、ImageNetデータセットの分類を高精度で行いたい（そもそも論文執筆（2012年）以前はdeep learningも含めて、画像の分類はそこまで精度が高くできなかった）
- CNNベースのモデルを使用することでこの市のコンペティションにおいて2位に大差をつける成績を収めた
執筆目的に対するアプローチでカギとなる要素は何か
- 深さのあるCNN（5層のConv層と3層のDense層を使用した）アーキテクチャを採用することで精度を上げる
- ReLU関数を使用することによる学習の高速化（それまではtanh(x)やsigmodが主流だった様子）
- 過学習を防ぐためにデータ拡張とDropoutを使用する
論文の内容を自分で使うことができるか
- 今となっては常識のようになっているので直接使えるものではないが、当時何が新しかったのかの勉強になった
読んだ論文以外でフォローしたい参考文献はあったか
- Dropoutについて書かれた論文
- G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural net- works by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.

セマンティックセグメンテーション

U-Net: Convolutional Networks for Biomedical Image Segmentation

arxiv.org

キーワード
- context and localization
- pixel level
- FCN
- U-Net
熟読度
- 2時間くらいでザックリ
著者（たち）は何をやり遂げようとしているのか
- 利用可能なアノテーション済みデータを効率的に利用するためのモデルを構築したい
- 特に今回はピクセル単位の予測をしたいが、生物医学の分野において、大量のデータを用意することは困難なため
- 技術的な課題としては位置に関する情報とcontextの抽出とにトレードオフの関係があること
執筆目的に対するアプローチでカギとなる要素は何か
- CNNのdownsamplingとupsamplingを対称的な形状に配置する
- FCNの縮小経路と拡大経路を多数結びつけることで、contextに関する情報も残して元の解像度に伝えることができる
論文の内容を自分で使うことができるか
- 畳み込みの抽象度を複数活用するというアイディアを活用できそう
- レイヤを深くすることで位置情報や細かい情報が落ちてしまうので、統合的に捉えたいときはまず検討してみると良さそう
読んだ論文以外でフォローしたい参考文献はあったか
- U Net以前のpixel単位の予測方法として引き合いに出していた論文
- Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural net- works segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012)

Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation

arxiv.org

キーワード
- weekly-supervised training
- semantic segmentation
- weak localization
熟読度
- 2時間程度。数式などの細かい部分は読み飛ばした
著者（たち）は何をやり遂げようとしているのか
- deep learning技術の発達により、正しい正解データが大量にあれば学習を進めることはできるようになってきている
- 一方で画像データにラベルづけを行うことは時間とコストがかかりボトルネックになっている
- 比較的コストのかからない単純なラベル付きデータ（1画像につき1つのラベル）を使用してセマンティックセグメンテーションを高精度に行いたい

執筆目的に対するアプローチでカギとなる要素は何か  - 以下3つを求める損失関数を組み合わせる

  - 1. CAMの要領で分類タスクからオブジェクトの位置を予測する
      - 分類タスクを行なったネットワークはlocal情報に関する手掛かりになることを使用する
  - 2. globalなプーリングによるラベルとの一致測定
  - 3. 境界を正しくとらえるための制約をかける
      - 不連続なセグメンテーションに制約をかけることでオブジェクトの境界と一致するマスクを生成することを学習するようになる

論文の内容を自分で使うことができるか
- weekly-supervised trainingという学習方法を知らなかったので勉強になった。必ずしも学習したい対象がデータとしてなくても似たことを学習させる圧力が働くように損失関数を組み合わせることで近い解を導出できるというのが面白い。
読んだ論文以外でフォローしたい参考文献はあったか
- 特になし

ChangeNet: A Deep Learning Architecture for Visual Change Detection

paperswithcode.com

キーワード
- Change Detection
- Siamese Network
- FCN
- ChangeNet
熟読度
- 7~8割読んだ
- 実装を試した
著者（たち）は何をやり遂げようとしているのか
- ドローンによる公共スペースの視覚的な変化、特に季節要因などの変化を除いた特定対象物の変化を検出したい
  - 過去画像との比較は季節による変化（雪など）や画像自体のコントラストの変化などの条件が重なるため単純な比較では難しい
- セマンティックセグメンテーションだけではなく、変化のラベルも同時に特定したい
執筆目的に対するアプローチでカギとなる要素は何か
- Siamese NetとFCNのアイディアを組み合わせたChange Netアーキテクチャを提案する
  - Siamese Netから複数階層の特徴量を取り出すことで、2つの画像から同じ処理をした複数の抽象度の特徴量を生成する
  - Siamese Net内部にはResNetを使用するが、出力を全結合にせず、1x1ConvとDeconvolutionによるサイズの復元を行う
論文の内容を自分で使うことができるか
- 構造がシンプルなためSiamese Net内部を変えたり、分類に使用したりなどここから応用してみることができそう
読んだ論文以外でフォローしたい参考文献はあったか
- Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmenta- tion. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2015) 3431–3440
- Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: International Conference on Medical Image Computing and Computer- Assisted Intervention, Springer (2015) 234–241

Change Detection in High Resolution Satellite Images Using an Ensemble of Convolutional Neural Networks

ieeexplore.ieee.org

キーワード
- change detection
- pre-process
- Siamese Network
熟読度
- 2時間程度でさくっと（構造は他の読んだ論文と似ていたため）
著者（たち）は何をやり遂げようとしているのか
- 特別な前処理をすることなく、2枚の画像の変化検知を行いたい。
- 従来であれば、画像の変化検知には、対象となる物体と、色などの変化とを区別するために前処理が必要であった。
- そのような前処理はそれ自体が大変なタスクであり、かつそれでも信頼性に欠ける可能性がある
執筆目的に対するアプローチでカギとなる要素は何か
- Siamese NetとUNet的な構造をアンサンブルすることで、差分特徴量を抽出する
- 3つのモデル（VGGベースのUNetをデコーダーの長さによって2種類、Siamese Netベースのモデルを1種類）を別々に学習させ、最後に分類が最大化するように閾値の処理を行う
論文の内容を自分で使うことができるか
- 通常のUnetとSiameseNetを使用した構造をアンサンブルすることで精度を上げようという発想
読んだ論文以外でフォローしたい参考文献はあったか
- 1. 1. Alcantarilla, S. Stent, G. Ros, R. Arroyo, and R. Gherardi, “Street- view change detection with deconvolutional networks.” in Robotics: Science and Systems, 2016.

可視化

Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

[1610.02391] Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

キーワード
- visual explanations
- Grad-CAM(Gradient-weighted Class Activation Mapping)
熟読度
- 1時間程度でさくっと
著者（たち）は何をやり遂げようとしているのか
- CNNモデルに対して、「視覚的な説明」を作成し、モデルの説明可能性を上げる
  - CNNは様々な応用がされているが、解釈が難しい
  - そもそも一般的に精度と解釈のしやすさはトレードオフにあり、対照的なのはルールベースの方法
執筆目的に対するアプローチでカギとなる要素は何か
- 最終的な畳み込み層に流れ込む「勾配」を使用することで画像内の重要な特徴を強調する
  - 最終的な畳み込み層は空間情報を保持しつつ、セマンティックな情報も保持していると考えられる
  - 勾配（のglobal average pooling）が大きいほど、最終的な分類に対して重要な情報を持っていると解釈できる
論文の内容を自分で使うことができるか
- CNNの分類に対し、影響の大きい部分を特定するのに活用できる（というかそのまま）
- 出力層だけではなく、中間層との関係などにも同様のアプローチが使用できることがわかる
- モデルの解釈可能性を調べるために、「人間にとって信頼性が高いと思うか」を実際に実験している点が面白い
読んだ論文以外でフォローしたい参考文献はあったか
- 1. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich Feature Hier- archies for Accurate Object Detection and Semantic Segmentation. In CVPR, 2014. 1