シンプルにTFIDFを考える

Webチームの同僚がESの社内勉強会で検索の色々を紹介してくれたのですが、「複数のドキュメントがあるときに、このドキュメントを特徴つける単語とは？」を知るためにTFIDFというアルゴリズムが使われていることを知って、どうも気になっていたので色々調べました。

TFIDFとは？

TFIDFは、TF(Term Frequency)とIDF(Inverse Data Frequency)の二つが合わさったアルゴリズムです。

TFIDFはそれぞれの積をとることで算出することができます。

難しそうな数式は正直さっぱりなので、数式を日本語におこして解釈すると以下のようにして求めることができそうです。

ここで、例文を使ってどういうこと？を探っていきます。

という２つのドキュメントがある時、bitやmyみたいな単語は２つのドキュメントで共通に使われている単語なので特に特徴づける単語とはいえないと思いますが、rabbit, dogのような単語は２つのドキュメントを特徴づける単語の一つといえそうです。

DocumentAを例にとって計算をしてみました。

Word	TF	IDF	TFIDF
The	1/7	log(2/2) = 0	0
Rabbit	1/7	log(2/1) = 0.69	0.13
Bit	1/7	log(2/2) = 0	0
My	1/7	log(2/2) = 0	0
Finger	1/7	log(2/1) = 0.69	0.13
Dog	0	log(2/1) = 0.69	0
Bacon	0	log(2/1) = 0.69	0

TFIDFで値が０の単語はDocumentAを特徴づける単語とは確かにいえなそうですが、rabbit, fingerのような単語は０以上の値がセットされているのでDocumentAを確かに特徴づける単語といえそう！という結果になりました。

Pythonで実装したものをJupyter notebookにしてgithubに公開しています。おかしなところありましたら、レビューお待ちしてます。