【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選

【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選

スキルアップAI講師陣注目の最新論文を厳選してご紹介

 

はじめに

今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください!

◆2022年に読むべき「機械学習/ディープラーニングの最新論文」30選の一覧はこちら
◆2021年に読むべき機械学習/ディープラーニングの最新論文「自然言語処理&強化学習編」に関する論文の解説はこちら

 

  • CoBERL: Contrastive BERT for Reinforcement Learning
    • 実装のURL:https://github.com/deepmind/dm_control
    • 強化学習における新たなエージェント「Contrastive BERT for Reinforcement Learning(CoBERL)」を提案
    • BERTから着想を得た上で、新たな対照損失及びLSTMとTransformerを組み合わせたアーキテクチャを導入
    • Atariゲームにおいて57ゲーム中49ゲームで人間のスコアを上回った

  • Decision Transformer: Reinforcement Learning via Sequence Modeling
    • 実装のURL:https://github.com/kzl/decision-transformer
    • Transformerやzero-shot学習など、最近大きな成功を収めている手法から着想を得た強化学習方法「Decision Transformer」を提案
    • 強化学習の要素にTransformer等を用いるのではなく、系列データのモデリング問題に置き換えてからTransformerなどを適用して学習している
    • AtariとOpenAI Gymにおいて既存手法と同等かそれ以上のスコアを達成

  • Zeroth-Order Actor-Critic
    • 実装のURL:なし
    • 勾配情報を利用しない進化戦略と方策勾配法を組み合わせたZOAC(Zeroth-Order Actor-Critic)を提案
    • 進化戦略における”パラメータ数が大きくなると最適化に必要なサンプル数が増加する”という短所を、方策勾配法で補助することで解消

  • Efficient Learning of Safe Driving Policy via Human-AI Copilot Optimization
    • 実装のURL:なし
    • 新たなhuman-in-the-loop学習法であるHACO(Human-AI Copilot Optimization)を提案
    • HACOは運転タスクで既存手法のスコアを上回り、学習ステップも大幅に減少した
    • HACOによる自動運転は、従来手法と比較して慎重な行動を行う傾向にあり、より高度な能力を付加していくことを示唆している

  • Regularizing Action Policies for Smooth Control with Reinforcement Learning
    • 実装のURL:なし
    • 強化学習において、学習されたコントローラの出力が安定せず発振してしまう問題を解決するために、新たな正則化方法としてCAPS(Conditioning for Action Policy Smoothness)を提案
    • CAPSは時間的な平滑性と空間的な平滑性の2つの要素を持っており、シミュレーションから実用に転用しやすいように設計されている
    • ドローンの姿勢制御を対象とし、実験でCAPSは性能を維持したまま平滑性を向上させ、実用的には消費電力を80%削減させた


  • Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation
    • 実装のURL:なし
    • 人間が直感的に理解できても、機械が学習するには膨大なサンプル数が必要となるようなタスク(論文内では迷路内のビー玉をゴールへ導くタスク)を実用に耐えうる時間内で学習できるモデルを提案
    • 物理エンジンと実システムの出力の残差をガウス過程回帰で補正する、というプロセスを反復的に行っている
    • 汎用的な物理エンジンをベースに設計しているため、転移学習が容易で、ロボット制御の面での発展を示唆している

 

次回予告

次回は最終回として「実務応用編」に関する最新論文を紹介します!ご期待ください!

スキルアップAIでは、Transformer/BERTの基礎および強化学習の基礎から応用まで学ぶ「現場で使えるディープラーニング基礎講座」や、AIの説明可能性について学ぶ 「現場で使える XAI(Explainable AI)講座」を開講しています。基礎から学びたい方は、ぜひご検討ください。

また、スキルアップAI技術ブログでは
文章読解タスクにおける Adversarial Examples
など自然言語処理や敵対的攻撃に関連する最新論文の解説も行っております。こちらも併せてご覧ください。
また、弊社がリリースする論文検索アプリ「ScholarPlanets」もぜひご活用ください。

◆2022年に読むべき「機械学習/ディープラーニングの最新論文」30選の一覧はこちら
◆第1回:「コンピュータビジョン編」に関する論文の解説はこちら
◆第2回:「自然言語処理編」に関する論文の解説はこちら
◆第4回:「実務応用編」に関する論文の解説はこちら
◆2021年に読むべき機械学習/ディープラーニングの最新論文「自然言語処理&強化学習編」に関する論文の解説はこちら

スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。
配信を希望される方はこちら

また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
  • Twitter
  • Facebook
  • LinkedIn
更新日:2022.04.26

関連する講座

Page Top