RoBERTa: 自己監督型NLPシステムの最適化メソッド
RoBERTaは自然言語処理(NLP)システムのための堅牢に最適化されたメソッドです。2018年にGoogleがリリースした自己監督型メソッドであるBidirectional Encoder Representations from Transformers(BERT)を改良しています。BERTは革命的な技術で、特定のタスクに対して特化的にラベル付けされた言語コーパスではなく、ウェブから抽出された未注釈のテキストに依存しながら、NLPタスクの範囲で最先端の結果を達成しました。その後、BERTはNLP研究のベースラインとして、また最終的なタスクアーキテクチャとしても人気を博しています。また、Googleのオープンリリースのおかげで、BERTの複製研究を行うことができ、パフォーマンスを向上させる機会を示しています。
RoBERTaは、PyTorchで実装されており、BERTの言語マスキング戦略に基づいています。このシステムは、そうでなければ未注釈の言語例の中で意図的に隠されたテキストのセクションを予測することを学びます。RoBERTaは、BERTの次の文の事前学習目的を削除し、より大きなミニバッチと学習率で訓練するなど、BERTの重要なハイパーパラメータを修正しています。これにより、RoBERTaはBERTと比較してマスクされた言語モデリング目的を改善し、下流のタスクパフォーマンスを向上させることができます。また、RoBERTaはBERTよりも桁違いに多くのデータで、より長い時間訓練することを検討しています。既存の未注釈のNLPデータセットと、公開ニュース記事から抽出された新しいセットであるCC-Newsを使用しています。
これらの設計変更を実装した後、当社のモデルはMNLI、QNLI、RTE、STS-B、RACEタスクで最先端のパフォーマンスを達成し、GLUEベンチマークで大幅なパフォーマンス向上を実現しました。88.5のスコアで、RoBERTaはGLUEリーダーボードのトップに到達し、以前のリーダーであるXLNet-Largeとパフォーマンスを一致させました。これらの結果は、BERT訓練における以前に探索されていない設計選択の重要性を強調し、データサイズ、訓練時間、および事前学習目的の相対的な貢献を解明するのに役立ちます。
RoBERTaは、Facebookが自己監督型システムの最先端技術を推進するための継続的な取り組みの一部であり、時間とリソースを大量に消費するデータラベリングへの依存を減らすことができます。RoBERTaのモデルとコードが広いコミュニティでどのように使用されるかを楽しみにしています。