본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://abit.ly/lisbva
공부 시작

강의 종료

강의장

학습 인증샷

강의 후기
선형대수, 통계, python, pandas 와 기본적인 ml 지식을 알고 있다는 가정으로 강의가 진행되어 선수지식이 없는 사람은 따라가기 힘들 것 같습니다.
아래는 강의를 보다가 모르는 것들을 따로 찾아보고 정리했습니다.
피벗테이블은 큰 데이터의 경우 어려울 수 있다.
그러면 8gb 메모리 16gb 메모리에서 어느정도 크기의 데이터셋을 피벗테이블로 만들 수 있을까?
=>
8gb의 경우 일반적으로 2-3gb 데이터셋, 16gb의 경우 5-7gb의 데이터셋을 처리 할 수 있다.
계산해보자!
1. 데이터셋이 1,000,000 rows, 10 cols가 있다고 가정
각 row는 8바이트를 가진다
8바이트는 64비트 정수를 표현. ex 9223372036854775807(64비트 최대 정수 값)
ASCII: 1문자당 1바이트가 필요하므로, 8바이트는 8개의 문자나 기호를 담을 수 있습니다.
2. 원본 데이터셋 크기=행 수×열 수×각 셀 크기
원본 데이터셋 크기=1,000,000×10×8=80,000,000 바이트=80 MB
3. 피벗 테이블의 행과 열
행의 수: 원본 데이터에서 행 기준으로 그룹화할 경우 고유 값의 수만큼 행이 생깁니다.
열의 수: 원본 데이터에서 열 기준으로 그룹화할 경우 고유 값의 수만큼 열이 생깁니다.
고유값이 100개라면 피벗 테이블의 행의 수는 100
피벗 테이블 크기=행 수×열 수×각 셀 크기
피벗 테이블 크기=100×100×8=80,000 바이트=0.08 MB
4. 메모리 계산
주어진 조건:
메모리 용량: 8GB (8,589,934,592 바이트)
피벗 테이블 크기: 피벗 테이블의 행 수는 134,217,728, 열 수는 8바이트로 가정하여 계산합니다. 이 경우, 피벗 테이블이 사용하는 메모리는 1GB입니다.
계산 과정:
피벗 테이블의 메모리 사용량 계산
피벗 테이블은 행과 열을 기준으로 데이터를 계산하기 때문에 메모리 사용량이 발생합니다. 주어진 조건에 따라, 피벗 테이블이 사용하는 메모리는 1GB입니다.
원본 데이터셋의 메모리 크기 구하기
전체 시스템 메모리가 8GB로 제한되므로, 피벗 테이블이 1GB를 차지하면, 원본 데이터셋은 7GB 이하의 크기까지 처리할 수 있습니다. 즉, 원본 데이터셋의 최대 크기는 7.52GB입니다.
메모리를 효율적으로 사용해서 한정된 자원으로 더 큰 데이터셋을 다루려면?
=>
categorical 데이터형 사용으로 고유 값의 수가 적은 열에 대해서 category 타입을 사용하면 메모리 사용량을 줄일 수 있다.
int64 타입을 int32로 변환
배치 처리
unique 한 값 별 빈도수를 기반으로 drop
고전적 추천 알고리즘
=>
과거 데이터를 기반으로 사용자의 선호나 행동을 예측
데이터에 내재된 패턴을 찾아 추언
기본적인 통계적 접근
연관 규칙 분석
=>
주로 장바구니 분석에서 사용
유저가 어떤 아이템을 구입했을 때 다른 상품도 함께 구입할 확률을 기반으로 추천
콘텐츠 기반 필터링
=>
아이템의 속성을 바탕으로 사용자가 이전에 선호함 아이템과 유사한 속성을 가진 다른 아이템을 추천
협업 필터링
=>
사용자의 행동, 평점 또는 피드백을 기반으로 다른 사용자들이 종하하는 아이템을 추천
TF-IDF (Term Frequency-Inverse Document Frequency)
문서에서 단어의 중요도를 평가하는 기법.
TF(단어 빈도)는 단어가 문서 내에서 얼마나 자주 등장하는지 나타내고 IDF(역문서 빈도)는 단어가 얼마나 드물게 등장하는지 평가한다.
'패스트캠퍼스' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 6일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.06 |
|---|---|
| 패스트캠퍼스 환급챌린지 5일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.05 |
| 패스트캠퍼스 환급챌린지 4일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.04 |
| 패스트캠퍼스 환급챌린지 3일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.03 |
| 패스트캠퍼스 환급챌린지 1일차 : 30개 프로젝트로 끝내는 추천시스템 구현 초격차 패키지 강의 후기 (0) | 2025.04.01 |