DBCLSでやってる自然言語処理の話。 TF * IDFは ある単語が、その単語を含む文書において、全体の文書と比較しながら「どれぐらい非凡か」ということを示す。 スコア = (ドキュメントに含まれる特定の単語の数/ドキュメントに含まれる全単語数) / log(全ドキュメント数 / 特定の単語を含むドキュメント数) 専門文書に含まれる専門用語を、青空文庫のログで比較して専門用語のスコアを高くとれるか、ということに使う。 まだ単語の抽出が済んでないので、スコアはあとで。 要: MeCabとMeCabのPythonバインディング #/usr/bin/python #-*- encoding:utf-8 -*- import os import MeCab from sys import argv from math import log from glob import glob mecab