【コンピュータビジョン編】2021年前半に読むべき「機械学習/ディープラーニングの論文」26選

<目次>

1. はじめに
2. 「生成モデル」に関する論文
3. 「画像認識」に関する論文
4. 「物体検出」に関する論文
5. 次回予告

はじめに

今回はコンピュータビジョン編として、生成モデル、画像認識や物体検出を中心に著名な国際会議に採択された論文を合計9本ご紹介いたします。著者実装が公開されているものは、その情報も合わせてまとめました。
論文は自動機械学習（AutoML）を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。是非、今後の学びにご活用ください！

◆2022年に読むべき「機械学習/ディープラーニングの最新論文」30選の一覧はこちら

「生成モデル」に関する論文

「Generative Pretraining from Pixels」
- 著者実装：https://github.com/openai/image-gpt
- 機械学習のトップカンファレンスICMLの採択論文
- 画像タスクの表現学習に自然言語処理のモデルであるGPT-2を利用する「Image-GPT」を提案。画像ピクセルの並びを時系列だとみなし自然言語と同じように学習。

「On Positive-Unlabeled Classification in GAN」
- コンピュータビジョン系のトップカンファレンスCVPRの採択論文
- GANの学習において、識別器に本物の画像と生成画像を教師あり学習によって識別させるのではなく、生成画像が高品質か低品質かを識別させる弱教師付き学習を行わせる「PUGAN」を提案した論文。これにより学習が安定するようになった。

「Unpaired Image Super-Resolution Using Pseudo-Supervision」
- コンピュータビジョン系のトップカンファレンスCVPRの採択論文
- Cycle-GANの学習方法を応用し、低解像度の画像と高解像度の画像がペアになっていなくても超解像モデルの学習ができる手法を提案した論文。この手法によって低品質な低解像度画像に対しても超解像ができるようになった。

「Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis」
- 著者実装：https://github.com/odegeasslbc/FastGAN-pytorch
- 機械学習のトップカンファレンスICLRの採択論文
- 実問題のシナリオを考慮すると、GANを用いて生成したい実画像のデータセットはあまり多く集めることができないことに着目し、低解像度の特徴マップを使って高解像度の特徴マップを重み付けするskip-layer channel-wize excitation mechanismと識別器上での自己教師付き正則化を用いて、数百枚以下のデータセットと限られた計算資源でGANの性能を向上する手法を提案した。

「画像認識」に関する論文

「Self-training with Noisy Student Improves ImageNet Classification」
- 著者実装：https://github.com/google-research/noisystudent
- コンピュータビジョン系のトップカンファレンスCVPRの採択論文
- ラベル付きデータが少ない際にstudent netにdropoutなどの確率的なノイズを加えながら蒸留を繰り返し、徐々にネットワークを大きくしていくことでロバストに学習できる手法を提案した論文。StudentとteacherにEfficientNetを使用した結果、通常通り学習したEfficientNetと比べてImageNetのtop-1 accuracyが大きく向上した。

「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks」
- 著者実装：https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet
- 機械学習のトップカンファレンスICMLの採択論文
- CNNモデルの構造に関して深さ、幅、解像度のバランスとパフォーマンスの関係を考察した論文。この考察に基づき提案されたEfficientNetはResNetよりも少ないパラメータ数で同等もしくはそれ以上の性能を達成した。

「Scaling Laws for Autoregressive Generative Modeling」
- 深層学習モデルの性能が、データセットの大きさ、モデルの大きさ、計算リソースの量の3つの要素に沿ってスケーリングする事を、様々なドメインのデータセット上で成り立つことを示した論文。特に、性能を向上させたい場合には訓練に長い時間をかけるよりも大きなモデルに多くの計算リソースを投入したほうがよいと述べている。

「物体検出」に関する論文

「EfficientDet: Scalable and Efficient Object Detection」
- 著者実装：https://github.com/google/automl/tree/master/efficientdet
- コンピュータビジョン系のトップカンファレンスCVPRの採択論文
- 高効率な物体検出モデル「EfficientDet」を提案。トップダウンとボトムアップの双方向の特徴融合を繰り返すBiFPNとEfficientNetのようにバランスを重視した構造を導入。バックボーン(特徴抽出器)にはEfficientNetを使用。YOLOv3やMaskRCNNなどと比べ、高速で高精度な物体検出を実現した。

「Objects365: A Large-scale, High-quality Dataset for Object Detection」
- Object365データセットのダウンロード：https://www.objects365.org/download.html
- コンピュータビジョン系のトップカンファレンスICCVの採択論文
- 365クラスの画像が計60万枚以上含まれている大規模な物体検出用データセットを提案。Objects365を使った事前学習モデルは、ImageNetを使った場合と比べ、COCO物体検出ベンチマークにおいて精度が向上した。

次回予告

次回は「自然言語処理＆強化学習編」に関する論文7本を解説いたします！ご期待ください！

◆2021年前半に読むべき「機械学習/ディープラーニングの論文」26選の一覧はこちら
◆2021年前半に読むべき「機械学習/ディープラーニングの論文」26選　自然言語処理＆強化学習編はこちら
◆2021年前半に読むべき「機械学習/ディープラーニングの論文」26選　機械学習/ニューラルネットワークの一般的テクニック＆実務応用編はこちら
◆2022年最新版「機械学習/ディープラーニングの最新論文」30選はこちら

スキルアップAIでは、画像認識や物体認識、それらを理解するために必要な深層学習の基礎を学ぶ「現場で使えるディープラーニング基礎講座」を開講しています。また、様々なGANを学ぶ「GAN（敵対的生成ネットワーク）講座」も開講中です。是非ご検討ください。

また、スキルアップAI技術ブログでは
・2020年時点で最も注目される生成モデル
・人の認知が組み込まれたGAN -HumanGAN-
など、GANに関連する最新論文の解説も行っております。こちらも合わせてご覧ください。