BERT:自然言語処理のための最先端の事前学習モデル
自然言語処理(NLP)において大きな課題の一つは、訓練データの不足です。NLPは多様な分野であり、多くの異なるタスクが存在しますが、ほとんどのタスク固有のデータセットには数千または数十万の人間によってラベル付けされた訓練例しか含まれていません。しかし、現代のディープラーニングベースの NLP モデルは、より大量のデータから恩恵を受け、数百万または数十亿の注釈付き訓練例で訓練すると性能が向上します。
このデータのギャップを埋めるために、研究者たちはウェブ上の膨大な量の未注釈テキストを使用して汎用的な言語表現モデルを訓練するための様々な技術(事前学習)を開発してきました。事前学習モデルは、その後、質問応答や感情分析などの小規模データの NLP タスクで微調整でき、これらのデータセットからゼロから訓練するよりも大幅に精度が向上します。
今週、私たちは自然言語処理の事前学習のための新しい技術である Bidirectional Encoder Representations from Transformers(BERT)をオープンソース化しました。このリリースにより、世界中の誰でも、単一の Cloud TPU で約 30 分、または単一の GPU で数時間で独自の最先端の質問応答システム(または他の様々なモデル)を訓練できます。このリリースには、TensorFlow の上に構築されたソースコードといくつかの事前学習言語表現モデルが含まれています。
BERT は最近の事前学習コンテキスト表現の研究成果に基づいていますが、BERT は最初の深く双方向で、無監督の言語表現であり、単純なテキストコーパス(この場合は Wikipedia)を使用して事前学習されています。
BERT は入力の一部の単語をマスクアウトし、各単語を双方向に条件付けてマスクされた単語を予測することで、双方向モデルの訓練問題を解決しています。また、BERT は文間の関係をモデル化することも学習しています。
Cloud TPUs は私たちがモデルを迅速に実験、デバッグ、微調整できるようにし、BERT の成功に不可欠でした。
BERT は SQuAD v1.1 で 93.2%の F1 スコアを達成し、GLUE ベンチマークでも大幅に改善しています。
リリースされたモデルは数時間以内に様々な NLP タスクで微調整できます。現在リリースされている BERT モデルは英語のみですが、近い将来、様々な言語で事前学習されたモデルをリリースすることを期待しています。