자연어 처리
[프로젝트 정리] 사용자 감성 분석을 통한 음악 추천 서비스 개발 - 노래 가사 감정 분류
sihyeon3523
2024. 11. 3. 21:48
멜론 노래 가사
장르 별 TOP 400개의 곡을 스크래핑 했다.
스크래핑 한 노래 가사의 특수문자를 제거해주고, 50% 이상이 영어일 경우에는 Kobert 모델로 구분을 못할 가능성이 크기 때문에 제거를 진행했다.
가사도 마찬가지로, 버트 토크나이저를 활용하여 토큰화 진행했다. 가사 내 문장별 확률 값을 추출하고
가사의 감정 확률 값 추출, 문장별 감성 확률의 정규화 평균을 구했다. 가장 높은 확률 값을 가지는 감정으로 분류했다.
노래 감성 분류 태깅하는데 한 곡당 20~30초 정도 걸리면서 대략 26시간 정도 걸렸다.