この記事は、前後編の2回に分けてお届けしていく。今回も、筆者が挑戦した機械学習によるリンクスパム判定ツールの顛末を見てみよう。 トレーニングセットについて一言機械学習では、「解決したい問題を数値化する方法」である「モデル」が重要だ。 しかし、そのモデルを活かすも殺すもトレーニングセット次第だ。良いトレーニングセットとはすなわち、生まれたての機械学習プログラムに優秀な教師をつけることになる。悪いトレーニングセットは、落ちこぼれ先生に教えさせるようなものだ。 正確なだけでは十分ではない。トレーニングセットは、考えうる分類シナリオをくまなくカバーする必要がある。 「優良」ページが1つ、「スパム」ページが1つでは不十分だ。さまざまな可能性をちゃんと学習させるには、何百、何千というページをトレーニングセットとして与える必要がある。さもないと、機械学習プログラムはその限られた範囲のトレーニングセットか