본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

https://abit.ly/lisbva

 

공부 시작

강의 종료

강의장

학습 인증샷

학습후기

 

Feature 정보 활용

추천 시스템을 만들다 보면 자연스럽게 고민하게 되는 게
"단순히 유저-아이템 매트릭스만 써도 되는 걸까?"라는 질문이다.


결론부터 말하면, 실제 서비스에선 행동 로그만으로는 한계가 분명히 있다.

 

유저가 누구인지, 아이템이 어떤 특징을 갖고 있는지
즉, 유저와 아이템 각각의 feature 정보를 활용하면 더 풍부한 표현이 가능해진다.

 

유저 입장에선 나이, 성별, 지역, 관심사, 구독 플랜 같은 것들.


아이템 쪽에선 카테고리, 장르, 가격, 등록일, 해시태그, 메타태그 등등.


이런 속성들이 모델에 들어가면 cold start에도 도움이 되고,
기존 협업 필터링의 sparse한 문제도 어느 정도 보완할 수 있다.

 

특히 딥러닝 기반 추천 모델에서는 이 feature들을 one-hot이나 임베딩으로 바꿔서
모델 입력에 직접 넣는 방식이 자주 사용된다.


대표적으로는 Wide & Deep, DeepFM, DIN, DCN 같은 구조들이 있다.


예를 들어 넷플릭스에서는 단순히 "이 유저가 어떤 콘텐츠를 봤는가"만 보는 게 아니라,
해당 콘텐츠를 어떤 기기로 시청했는지, 시청 시간대가 언제였는지, 완주율은 어땠는지 같은 feature들을 함께 본다.


이런 정보들이 쌓이면 ‘주말 오전에 가족 단위로 예능을 소비하는 패턴’ 같은 유저의 usage profile을 파악할 수 있고,
단순 취향뿐 아니라 이용 행태에 맞춘 추천이 가능해진다.


결국 추천의 정확도보다 중요한 건,
지금 이 순간, 이 유저가 어떤 콘텐츠를 보고 싶어할까? 를 예측하는 것이고,
그걸 가능하게 해주는 게 바로 이런 행동 맥락 기반 feature들이다.


개발자 입장에서 보면, feature 정보는 처음부터 전부 쓰지 않아도 된다.


하지만 추천 시스템이 어느 정도 굴러가기 시작했을 때,
어떤 feature를 어떻게 활용할 수 있을지 미리 구조를 열어두는 게 진짜 중요하다.

 

처음부터 feature를 완벽하게 설계하겠다는 부담보다는,
“이 정보도 나중에 쓸 수 있도록 저장만 해두자”라는 마인드로 접근하면 확장성과 분석 효용 모두 잡을 수 있다.