줄거리를 통해 장르를 예측할 수 있다는 가설에 대해서 검증을 진행
→ OTT 플랫폼 간의 경쟁이 치열해지면서 경쟁력을 갖추기 위해 추천시스템의 고도화를 진행함. 이를 위해서 정교한 태깅 작업이 필요하게 되었고, 사람을 고용해 직접 태그를 다는 작업을 함.
→ 영화는 갈 수록 쌓이고, 달아야 할 태그의 가짓수도 늘어날텐데...? 사람이 직접 태그를 다는 것은 인건비와 작업 소요시간에 있어서 비효율적임.
=> 지금 가지고 있는 태그 데이터와 영화의 텍스트, 이미지, 오디오 등의 데이터를 조합하여 딥러닝에게 맡겨보자!
- 개봉 년도 1901~2017까지 넓은 범위의 영화를 포함
→ 장르와 플롯 컬럼만 추출해 결측치 및 중복치 제거
→ 2264개나 되는 가짓수를 가지고 있어서 확인해보니, 예시와 같이 나뉘어진 장르가 많아서 최대한 통합시킴. 최종적으로 빈도수 200 이상의 장르 총 17개로 추림.
- 대문자는 소문자로 변환
- 's, \r\n, 특수문자, 불용어 제거
- 어간 추출 진행
→ BERT는 양방향으로 학습을 하기 때문에 문맥 파악에 특히 강점을 가진 모델이므로 선정.
→ 전처리를 마친 데이터셋을 토큰화 및 패딩 처리까지 해서 BERT에 학습시킴.
→ 장르 17개에 대한 분류이므로 찬스레벨은 1/17
→ 학습 및 검증 결과, 찬스레벨의 약 10배인 0.5의 정확도를 보임
→ 평가 데이터셋의 결과도 마찬가지로 0.5 수준을 보임
Python
Google Colab
EDA
nltk
BERT
Tensorflow
Keras