본문 바로가기

ML & DL3

[DACON] 물류 유통량 예측 경진대회 데이터 전처리 필요 없는 칼럼 제거 및 칼럼명 변경 Index 제거 단순히 순서를 의미하므로 제거 REC_SPG_INNB 제거 운송장 건 수는 수하인이 아닌 송하인에 따라 결정된다고 생각하므로 수하인_격자공간고유번호(REC_SPG_INNB) 칼럼 제거 SEND_SPG_INNB 칼럼명 변경 SEND_SPG_INNB(송하인_ 격자공간고유번호) -> SPG_INNB(격자공간고유번호) ​ ​ 카테고리 칼럼의 데이터 타입 변환 카테고리 칼럼의 타입 변환 (문자열 -> 숫자) 외부 데이터(전국 상품 물동량 점유율(중분류) - KDX 한국데이터거래)를 통해 상품의 카테고리 대분류 및 중분류 명칭과 추가적인 코드를 얻을 수 있다. 단순한 Label Encoding을 통한 수치 변환 보다 적절한 수치로 변환할 수 있다는.. 2021. 12. 23.
[Machine Learning] 사이킷 런(scikit-learn) 시작하기 사이킷 런(scikit-learn) scikit-learn 특징 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공 다양한 머신러닝 관련 알고리즘 개발을 위한 프레임워크와 API 제공 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리 scikit-learn 주요 모듈 예제 데이터 sklearn.datasets : 사이킷런에 내장되어 예제로 제공하는 데이터 세트 피처 처리 sklearn.preprocessing : 데이터 전처리에 필요한 다양한 가공 기능 제공(문자열을 숫자형 코드 값으로 인코딩, 정규화, 스케일링 등) sklearn.feature_selection : 알고리즘에 큰 .. 2021. 11. 23.
[Machine Learning] Machine Learning 개념 머신러닝(Machine Learning) 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야 머신러닝은 데이터를 통해 다양한 패턴을 감지하고, 스스로 학습할 수 있는 모델 개발에 초점 머신러닝 분류 지도 학습(supervised Learning) 지도 학습은 주어진 입력으로 부터 출력 값을 예측할 때 사용 입력과 정답 데이터를 사용해 모델을 학습 시킨 후 새로운 입력 데이터에 대한 정확한 출력을 예측하는 것이 목표 분류와 회귀 지도 학습 알고리즘은 분류(classification)와 회귀(regression)로 구분 분류는 입력 데이터를 미리 정의된 여러개의 클래스 중 하나로 예측 분류는 클래스의 개수가 2개인 이진 분류(Binary Classification)와 3 이상인 다중 분.. 2021. 11. 23.