【自然言語処理編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選

【自然言語処理編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選

スキルアップAI講師陣注目の最新論文を厳選してご紹介

はじめに

今回は自然言語処理編として、機械翻訳における最適な語彙のサイズを求めるアルゴリズムやテキスト生成タスクにおけるデータ拡張の新手法などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください!

◆2022年に読むべき「機械学習/ディープラーニングの最新論文」30選の一覧はこちら
◆2021年に読むべき機械学習/ディープラーニングの最新論文「自然言語処理&強化学習編」に関する論文の解説はこちら

 

自然言語処理

  • Vocabulary Learning via Optimal Transport for Neural Machine Translation
    • 実装のURL:https://github.com/Jingjing-NLP/VOLT
    • ACL2021 ベストペーパー
    • 情報理論の観点から、機械翻訳における最適な語彙のサイズを求めるアルゴリズム「VOLT」を提案
    • 従来、語彙のサイズを求めるにはパラメータを試行錯誤しながら求める必要があったが、本手法では自動的に求めることが可能
    • VOLTは英独翻訳で、70%の語彙サイズの削減とBLEUスコアで0.5を達成した

  • All That’s ‘Human’ Is Not Gold: Evaluating Human Evaluation of Generated Text
    • 実装のURL:なし
    • 自然言語生成において、生成した文章の評価は人間が行うことがスタンダードであるが、近年言語生成モデルの性能が高まっていることから機械と人間の区別を行うことが徐々に難しくなりつつある
    • 実際に実験から、訓練を受けていない評価者で計測してみると、人間が生成した文章とGPT3が生成した文章の識別率は、ランダムな識別とほぼ同程度に留まった
    • 評価者に様々な面からトレーニングを施した場合でも有意な識別率の向上は見られず、人間を評価指標とする場合の手法を改める必要があると提案

  • EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
    • 実装のURL:https://github.com/VITA-Group/EarlyBERT
    • BERT、XLNetやT5などの自然言語処理分野の最新手法は強力である一方で、膨大な計算資源や訓練時間を要する。この問題の解決法を”宝くじ仮説”から着想を得た手法で提案
    • 先行研究では、計算コストを削減するモデルの探索に計算コストがかかっていたが、本論文では事前学習やファインチューニングも含めたモデル全体の計算コストの削減に焦点を当てている
    • 提案しているEarlyBERTでは、スコアは維持したまま従来のBERTと比較して35%〜45%の訓練時間の削減を達成

  • Data Augmentation for Text Generation Without Any Augmented Data
    • 実装のURL:なし
    • テキスト生成タスクにおけるデータ拡張の新手法を提案
    • データ拡張の際には、適切な拡張を行うために元のデータと拡張データをつなぐマッピング関数を定義する必要があったが、本手法ではそれを一般的な関数に置換
    • 提案手法は既存のデータ拡張手法と比較すると、同等かそれ以上のBLEUスコアを達成

  • KaggleDBQA: Realistic Evaluation of Text-to-SQL Parsers
    • 実装のURL:なし
    • 新たな質問応答におけるデータベースであるKaggleDBQAの提案
    • Text-to-SQLの既存のデータベースはText-to-SQLにおいてモデルの汎化性能を向上させている一方で、実用においては課題が残るとしている
    • 実験と実用のギャップを埋められるようなデータベースの構築方法を提案すると同時に、そのような評価指標を用いることを奨励している

  • Towards Robustness of Text-to-SQL Models against Synonym Substitution
    • 実装のURL:なし
    • 新たなText-to-SQLのデータセットであるSpider-Synを提案
    • このデータセットでは、実用に近い場合を想定した単語の異なる同義の質問文が含まれており、最新のText-to-SQLの手法がこのデータセットと比べると性能が低くなることが示されている
    • また、頑健性が向上するようなアプローチをいくつか提案し、それにより頑健性が向上することを実験で示している

  • When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
    • 実装のURL:https://github.com/asappresearch/sru
    • 低計算コストでモデリング可能な再帰と注釈を用いたSRU++を提案
    • 言語モデリングタスクにおいて、3倍〜10倍少ない計算コストでありながらbit-per-characterとパープレキシティの両面で既存手法を上回る
    • 注釈のみを用いたモデリングではなく、再帰とAttentionの両方を用いたモデリングに焦点を当てており、正規化や最適化の方法を改良することでさらに高性能になることを示唆

 

次回予告

次回は「強化学習編」に関する最新論文を紹介します!ご期待ください!

スキルアップAIでは、Transformer/BERTの基礎および強化学習の基礎から応用まで学ぶ「現場で使えるディープラーニング基礎講座」や、AIの説明可能性について学ぶ「現場で使える XAI(Explainable AI)講座」を開講しています。
基礎から学びたい方は、ぜひご検討ください。

また、スキルアップAI技術ブログでは
文章読解タスクにおける Adversarial Examples
など、自然言語処理や敵対的攻撃に関連する最新論文の解説も行っております。こちらも併せてご覧ください。
また、弊社がリリースする論文検索アプリ「ScholarPlanets」もぜひご活用ください。

◆2022年に読むべき「機械学習/ディープラーニングの最新論文」30選の一覧はこちら
◆第1回:「コンピュータビジョン編」に関する論文の解説はこちら
◆第3回:「強化学習編」に関する論文の解説はこちら
◆第4回:「実務応用編」に関する論文の解説はこちら
◆2021年に読むべき機械学習/ディープラーニングの最新論文「自然言語処理&強化学習編」に関する論文の解説はこちら

スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。
配信を希望される方はこちら

また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
  • Twitter
  • Facebook
  • LinkedIn
更新日:2022.04.26

関連する講座

Page Top