본문 바로가기

분류 전체보기147

MAB (Multi-Armed Bandit) 알고리즘 1. A/B 테스트의 확장판 MAB MAB(Multi-Armed Bandit)는 A/B 테스트의 탐색(Exploration)과 활용(Exploitation)의 문제를 체계화한 것이다. A/B 테스트의 문제점 “알고리즘 A, B, C 중 어떤게 가장 좋은 성과를 얻을 수 있을까?” A/B 테스트란 여러 알고리즘 중에서 가장 좋은 성과를 내는 알고리즘을 선택하는 것이다. 그러나 A/B 테스트에는 탐색-수확 딜레마 (The Exploration-Exploitation Dilemma) 문제가 존재한다. 탐색(Exploration)의 문제 : 테스트를 할수록 기회비용이 발생 Ex) 직관적으로 기존의 A 알고리즘의 매출이 더 높을 것이라 예상했지만, 새로운 B 알고리즘을 적용했을 때 매출을 분석하기 위해 일주일 간.. 2022. 2. 14.
A/B 테스트 A/B 테스트 1. A/B 테스트란? A/B 테스트란 디지털 환경에서 전체 실사용자를 대상으로 대조군(Control Group)과 실험군(Experimental Group)으로 나누어서 어떤 특정한 알고리즘의 효과를 비교하는 방법론이다. A와 B 알고리즘의 성능을 비교 평가 하나의 서비스에 여러 개의 추천 컨셉 및 알고리즘 적용 가능 Ex) 음악 서비스 1. 인기 순 (예: 실시간 차트 Top 10, 주간 Top 10 2. 사용자가 좋아하는 가수의 음악 3. 사용자가 좋아하는 장르의 음악 서비스 만족도를 향상시키기 위해서 어떤 알고리즘의 성능이 우수한지 비교 평가하는 것이 중요하다. 2. Online A/B 테스트 vs Offline A/B 테스트 Online A/B 테스트 실제 서비스에 A와 B 알고리.. 2022. 2. 14.
연관 분석 (Association Analysis) 연관 분석 (Association Analysis) 1. 개요 데이터 마이닝은 크게 세 가지로 분류됩니다. 분류/회귀 분석(Classification/Regression) 군집 분석(Clustering) 연관 분석(Association) 2. 연관 분석이란? 연관 분석이란 ‘조건-결과' 식으로 표현되는 유용한 패턴(pattern)을 나타내는 연관 규칙(Association Rule)을 발견해내는 것입니다. 간단히 말하자면, 룰기반의 모델로서 상품과 상품 사이에 어떤 연관이 있는지 찾아내는 알고리즘입니다. 대표적으로 ‘상품 A와 B를 같이 구매하는가?’, ‘상품 A를 구매후 B를 구매하는가?’와 같은 규칙을 찾아냅니다. 대표적인 일화로는 월마트에서 맥주를 구매할 때 기저귀를 같이 구매하는 경향이 크다는 것.. 2022. 2. 10.
[DACON] 물류 유통량 예측 경진대회 데이터 전처리 필요 없는 칼럼 제거 및 칼럼명 변경 Index 제거 단순히 순서를 의미하므로 제거 REC_SPG_INNB 제거 운송장 건 수는 수하인이 아닌 송하인에 따라 결정된다고 생각하므로 수하인_격자공간고유번호(REC_SPG_INNB) 칼럼 제거 SEND_SPG_INNB 칼럼명 변경 SEND_SPG_INNB(송하인_ 격자공간고유번호) -> SPG_INNB(격자공간고유번호) ​ ​ 카테고리 칼럼의 데이터 타입 변환 카테고리 칼럼의 타입 변환 (문자열 -> 숫자) 외부 데이터(전국 상품 물동량 점유율(중분류) - KDX 한국데이터거래)를 통해 상품의 카테고리 대분류 및 중분류 명칭과 추가적인 코드를 얻을 수 있다. 단순한 Label Encoding을 통한 수치 변환 보다 적절한 수치로 변환할 수 있다는.. 2021. 12. 23.
[논문 리뷰] Wide & Deep Learning for Recommender Systems Abstract linear 모델은 대규모 sparse inputs에 대한 regression 혹은 classification 문제를 풀 때 사용한다. 장점으로는 feature간의 cross-product는 feature interactions을 기억(memorization)하는데 효과적이고, 단점으로는 일반화에 많은 feature engineering이 필요하다는 것이다. deep neural networks은 저차원의 embedding을 통해 더 잘 일반화(generalization)할 수 있다. 하지만 user-item interactions이 sparse할 때 지나치게 일반화되고 관련성이 낮은 항목을 추천할 수 있다는 단점이 있다. 본 논문은 linear 모델의 memorization(기억)과 d.. 2021. 12. 6.
GitHub 특정 파일 및 폴더 push 제외하고 push (.gitignore) .gitignore 파일 만들기 .gitignore 파일은 로컬 환경에서 민감한 파일 및 폴더에 대하여 git에 올라가지 않도록 관리하는 파일이다. 따라서 git clone을 통해 git repository를 로컬에 저장한 폴더에서 다음과 같은 명령어를 통해 .gitignore 파일을 만든다. nano .gitignore그리고 git에 올리지 않길 원하는 폴더 및 파일을 다음과 같이 정의해주면 된다. # dataset 폴더를 제외하고 싶을 때 dataset/ # .txt 파일을 제외하고 싶을 때 *.txt상당히 간단한다. 하지만 이 또한 귀찮으므로 아래의 사이트에서 자신의 개발 환경을 입력하면 알아서 .gitignore 파일을 기본적으로 작성해준다. gitignore.io - 자신의 프로젝트에 꼭 맞는 .. 2021. 11. 29.
[논문 리뷰] Neural Collaborative Filtering (2017) Abstract 본 논문은 implicit feedback을 기반으로 하는 collaborative filtering이라는 추천 알고리즘을 신경망(neural networks) 을 기반으로 하는 기술을 개발하기 위해 노력한다. 2017년 일부 연구는 추천을 위해 딥러닝을 사용했지만 주로 항목에 대한 텍스트 설명 및 음악의 음향적 특징과 같은 보조 정보를 모델링하는 데 사용했습니다. collaborative filtering의 핵심 요소인 user–item interaction을 모델링할 때 그들은 여전히 matrix factoriziation에 의존하고 user-item latent features의 내적을 적용했습니다. Network-based Collaborative Filtering (NCF) : .. 2021. 11. 25.
[프로그래머스] 단속카메라 [JAVA(자바)] ‘프로그래머스 코딩테스트 고득점 Kit’ 문제 입니다. 😀 문제 👉 1. 문제 고속도로를 이동하는 모든 차량이 고속도로를 이용하면서 단속용 카메라를 한 번은 만나도록 카메라를 설치하려고 한다. 고속도로를 이동하는 차량의 경로 routes가 매개변수로 주어질 때, 모든 차량이 한 번은 단속용 카메라를 만나도록 하려면 최소 몇 대의 카메라를 설치해야 하는지를 return 한다. 2. 풀이 Greedy 를 이용한 문제 풀이 진출 시점을 기준으로 오름차순으로 정렬 진출하려는 차량이 카메라를 한번이라도 거쳤는지 확인하기 위해 카메라의 초기 위치는 -30000 으로 설정 (설치는 아님) 카메라의 위치가 진입 시점 이전이라면 진출 시점에 설치 3. 코드 import java.util.*; class Solution .. 2021. 11. 25.
[프로그래머스] 구명보트 [JAVA(자바)] ‘프로그래머스 코딩테스트 고득점 Kit’ 문제 입니다. 😀 문제 👉 1. 문제 구명보트에 1명 또는 최대 2명을 태워 무인도에서 구출한다. 2명의 무게가 구명보트의 무게 제한을 넘지 않을 때만 2명이 탄다. 구출에 필요한 최소의 구명보트를 return한다. 2. 풀이 Greedy 를 이용한 문제 풀이 사람들의 무게를 정렬한다. 가장 무거운 사람과 가장 가벼운 사람의 무게를 통해 2명이 탈 지 1명이 탈지 정한다. 3. 코드 import java.util.*; class Solution { public int solution(int[] people, int limit) { int answer = 0; Arrays.sort(people); int i = 0; for (int j=people.length-1; i 2021. 11. 25.