TF-IDFとは

自然言語処理




TF-IDF

TF-IDFは、Term-Frequency-Inverse-Document-Frequencyの略です。

文書中に含まれる単語の重要度を評価する手法です。

TF-IDFは、下のように定義されています。
$$TF-IDF(t,d) = tf(t,d) \times idf(t,d)$$

\(tf(t,d)\)は、単語の出現頻度を表しています。
\(idf(t,d)\)は、逆文書頻度を表しています。

tf(Term Frequency)

\(tf(t,d)\)は、単語の出現頻度を表しています。

文書dにおける単語tの出現回数を表す。

idf(Inverse Document Frequency)

\(idf(t,d)\)は、逆文書頻度を表しています。
$$
idf(t,d) = log{\frac{n}{1+df(t,d)}}
$$

df(t,d)は、単語tを含んでいる文書の個数を表す。
\(n_d\)は、文書の総数を表す。

参考書

[amazonjs asin=”4295003379″ locale=”JP” title=”第2版Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)”]

タイトルとURLをコピーしました