35778_14358_4921

카카오 아레나에서 브런치 사용자를 위한 글 추천 대회를 열었습니다. 브런치 데이터를 활용해 사용자의 취향에 맞는 글을 예측하는 대회였는데요. 이번 대회를 준비하기 위해 캐글과 여러 책을 참고하여 추천 시스템에 대해 공부를 할 때에는 추천 시스템 자체가 정형화된 패턴이 있어서 브런치 대회도 쉽게 준비할 수 있었을 것 같았는데요.. ? 대회 마지막 날 리더보드에서 베이스라인과 비슷한 스코어를 받으며 정말 좌절했습니다.. 많은 팀이 참가했는데 코드를 제출한 팀이 반이 안되었고 그마저도 상위권과 중위권 스코어도 굉장히 많이 차이가 나면서 세상은 참 넓구나를 느꼈습니다.

이번 추천 시스템의 핵심 아이디어는 다른 추천 시스템처럼 Collaborative Filtering 와 Contents Based Filtering 였습니다. 데이터 자체가 다른 공모전과 달리 정말 압도적인 용량이어서 모델의 구성보다는 EDA에서 많은 시간을 보냈습니다. 실제로 이러한 작업의 진짜 문제는 메모리의 한계를 극복하고 노이즈 데이터를 제거하는 것이었는데요. 데이터 가공을 완성한 후 모델적인 측면에 대한 전문적인 설명은 카카오 리포트를 통해서 확인해보시면 좋을 것 같습니다.