본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
공부 시작
강의 종료
강의장
학습 인증샷
학습후기
MAB (Multi-Armed Bandits)
당첨확률이 각각 다른 슬못머신 여러 개 중에서 한 번에 하나씩 눌러가며 최대 보상을 얻고 싶은 상황을 수학적으로 모델링한 문제
지금까지 좋았던 걸 계속 추천할까? 아니면 아직 테스트하지 않은 걸 시도해볼까?
이 딜래마를 탐험(Exploaration) vs 활용(Exploitaion)
사용예시
1. 뉴스 앱에서 어떤 기사 헤드라인을 띄워야 클릭이 잘 나올까
2. 광고 시스템에서 어떤 배너가 전환율이 높을까
3. 커머스 메인에서 어떤 상품을 배치하면 가장 반응이 좋을까
이렇게 즉시 반응(CTR, 클릭, 구매)을 기반으로 추천을 조정해야 하는 상황에 MAB 알고리즘이 사용된다.
논문 : A Survey on Practical Applications of Multi-Armed and Contextual Bandits
논문에서는 단순한 ε-greedy부터 UCB, Thompson Sampling, LinUCB, Contextual Bandit까지
여러 MAB 계열 알고리즘이 실제 서비스에서 어떻게 쓰였는지를 도메인별로 소개하고 있다.
각 알고리즘마다 강점이 다르기 때문에, 도메인 특성과 문제 구조에 따라 맞춤형으로 선택하는 게 핵심이라는 점을 강조한다.
예를 들어:
대표적인 MAB 알고리즘
1. ε-Greedy
Yahoo!에서 사용된 적이 있다.
유저에게 항상 가장 인기 있는 기사를 보여주는 게 아니라, 일정 확률로 새로운 기사를 랜덤으로 보여줌으로써
새로운 콘텐츠의 반응을 탐색할 수 있도록 했다.
2. UCB (Upper Confidence Bound)
클릭 수가 적은 콘텐츠도 신뢰 구간을 넓게 잡아 일정 확률로 노출한다.
이 방식은 의료 영역에서 실험 약물 추천 시 활용되었다.
이미 효과가 입증된 치료를 기본으로 사용하되, 확신이 덜한 새로운 치료도 안전하게 실험할 수 있게 해준다.
3. Thompson Sampling
베이즈 기반 접근이라 확률적으로 더 유연하게 반응을 예측한다.
광고 시스템이나 온라인 게임 설계에 많이 쓰였는데,
예를 들어 게임에서 어떤 보상을 줄지 결정할 때,
유저의 반응에 따라 보상의 종류나 수량을 점점 최적화할 수 있도록 학습한다.
4. LinUCB
유저의 feature 정보를 활용해 더 정교한 선택을 할 수 있다.
논문에선 퍼스널라이즈된 광고 추천에서 이 알고리즘이 쓰였다고 설명한다.
단순히 어떤 광고가 잘 나가는지를 보는 게 아니라,
이 유저의 나이, 성별, 관심사 등을 반영해 가장 반응이 좋을만한 광고를 실시간으로 예측하는 데 활용된다.
5. Contextual Bandit
유저의 현재 컨텍스트(예: 시간대, 기기, 위치 등)를 입력으로 함께 사용한다.
넷플릭스나 유튜브 같은 스트리밍 서비스에서,
같은 유저라도 아침과 밤에 보고 싶어하는 콘텐츠가 다르다는 점을 반영해
“지금 이 순간 가장 어울리는 콘텐츠”를 추천하는 데 쓰인다.
“이제 A/B 테스트는 좀 올드하다. 실시간으로 학습하고 반응하는 게 훨씬 실용적이다.”
그걸 잘 설명해주는 논문이었다.
'패스트캠퍼스' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 25일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.25 |
---|---|
패스트캠퍼스 환급챌린지 24일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.24 |
패스트캠퍼스 환급챌린지 22일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.22 |
패스트캠퍼스 환급챌린지 21일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.21 |
패스트캠퍼스 환급챌린지 20일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.20 |