https://youtu.be/meEchvkdB1U?feature=shared
Term :단어
단어의 문서 연관성: 각 단어별로 이 문서에 대한 정보를 얼마나 가지고 있냐. 단어와 이 문서간이 연관성을 나타낸다.
TF-IDF : Term Frequency * Inverse Document Frequency
왜 TF-IDF ?
문서 내에서 가장 관련된 단어를 찾기 위해.
가설 : 단어의 관련성은 이 문서 내에서 가장 많이 등장했으면 이 단어가 이 문서에 관련성이 크다고 판단.
TF?
TF는 문서 내에서 단어가 얼마나 발생하는지 측정한 것이다.
만약 이 문서 내에서 단어가 다른 단어보다 더 많이 등장한다면, 이 단어는 다른 단어보다도 이 문서와의 관련성이 크다고 가정한다.
a new car, used car, car review
word | TF |
a | 1/7 |
new | 1/7 |
car | 3/7 |
used | 1/7 |
review | 1/7 |
a friend in need is a friend indeed
word | TF |
a | 2/8 |
friend | 2/8 |
in | 1/8 |
need | 1/8 |
is | 1/8 |
indeed | 1/8 |
'a'는 이 문서에서 가장 빈번히 발생한 단어이다. 하지만 이 문서와는 연관성이 적다.
이런 한계를 개선하기 위해 IDF를 활용한다. (어느 문장에서나 자주 출현하는 단어 불용어 같은)
IDF?
Inverse document frequency
어느 문장에서나 자주 출현하는 단어에 대한 패널티를 주기 위해서 IDF 를 사용.
Log (Total # of Docs / # of Docs with the term in it)
Log (Total # of Docs / # of Docs with the term in it + 1) --> 분모가 zero가 되는 것을 피하기 위해 +1을 해준다 (for smoothing)
A: a new car, used car, car review
B: a friend in need is a friend indeed
word | IDF |
a | log(2/2) = 0 |
new | log(2/1) = 0.3 |
car | log(2/1) = 0.3 |
used | log(2/1) = 0.3 |
review | log(2/1) = 0.3 |
friend | log(2/1) = 0.3 |
in | log(2/1) = 0.3 |
need | log(2/1) = 0.3 |
is | log(2/1) = 0.3 |
indeed | log(2/1) = 0.3 |
A: "a new car, used car, car review"
B: "a friend in need is a friend indeed"
word | TF | IDF | TF*IDF | ||
A | B | A | B | ||
a | 1/7 | 2/8 | log(2/2) = 0 | 0 | 0 |
new | 1/7 | 0 | log(2/1) = 0.3 | 0.04 | 0 |
car | 3/7 | 0 | log(2/1) = 0.3 | 0.13 | 0 |
used | 1/7 | 0 | log(2/1) = 0.3 | 0.04 | 0 |
review | 1/7 | 0 | log(2/1) = 0.3 | 0.04 | 0 |
friend | 0 | 2/8 | log(2/1) = 0.3 | 0 | 0.06 |
in | 0 | 1/8 | log(2/1) = 0.3 | 0 | 0.04 |
need | 0 | 1/8 | log(2/1) = 0.3 | 0 | 0.04 |
is | 0 | 1/8 | log(2/1) = 0.3 | 0 | 0.04 |
indeed | 0 | 1/8 | log(2/1) = 0.3 | 0 | 0.04 |
'자연어 처리' 카테고리의 다른 글
잠재의미분석 (LSA - Latent Semantic Analysis) (0) | 2024.11.03 |
---|---|
TF-IDF 문서 유사도 측정 (0) | 2024.11.03 |
자연어처리의 유사도 측정 방법(거리측정, 코사인 유사도) (0) | 2024.11.03 |
[딥러닝 자연어처리] n-그램 (0) | 2024.11.03 |
[딥러닝 자연어처리] Bag of Words (0) | 2024.11.02 |