NLP Foundation Devチーム
言語モデル訓練データのクリーニング:ルールベース vs 機械学習 こんにちは、早稲田大学修士課程1年の近藤瑞希と申します。8月21日から9月29日の6週間、NLP Platform Foundationチームでインターンシップに参加しました。本レポートでは私がインターンシップ中に取り組んだ、言語モデル訓練データのクリーニングについて報告します。 背景 ChatGPTなどに代表される大規模言語モデル(LLM)は多量のテキストを用いて学習を行っています。分析や研究に使うためにテキストを集積して構造化したものをコーパスと呼び、代表的なものではPile[1]やC4[2]が挙げられます。 LLMの学習に使われるコーパスはWeb上のテキストを集めたものが多く、質の悪いデータが含まれています。例えば、同じ単語の繰り返しや意味が通っていない文章などがWeb上には多く存在します。こうした質の悪いデータを除くことでLLMの性能が向上するといった報告もあります[3]。そのため多くのLLM事前学習ではテキストの品質を判定するフィルタを作成して、コーパスのクリーニングを行っています。フィルタ はほとんどの場合でル