반응형
데이터 전처리
필요 없는 칼럼 제거 및 칼럼명 변경
- Index 제거
- 단순히 순서를 의미하므로 제거
- REC_SPG_INNB 제거
- 운송장 건 수는 수하인이 아닌 송하인에 따라 결정된다고 생각하므로 수하인_격자공간고유번호(REC_SPG_INNB) 칼럼 제거
- SEND_SPG_INNB 칼럼명 변경
- SEND_SPG_INNB(송하인_ 격자공간고유번호) -> SPG_INNB(격자공간고유번호)


카테고리 칼럼의 데이터 타입 변환
- 카테고리 칼럼의 타입 변환 (문자열 -> 숫자)
- 외부 데이터(전국 상품 물동량 점유율(중분류) - KDX 한국데이터거래)를 통해 상품의 카테고리 대분류 및 중분류 명칭과 추가적인 코드를 얻을 수 있다.
- 단순한 Label Encoding을 통한 수치 변환 보다 적절한 수치로 변환할 수 있다는 장점이 있다.
DL_GD_LCLS_NM -> DL_GD_LCLS_CD
DL_GD_MCLS_NM -> DL_GD_MCLS_CD


- NaN값 처리
- 외부 데이터에 없는 카테고리에 대한 코드는 임의의 값을 넣는다.
카테고리_중 카테고리/중_코드 카테고리_대 카테고리/대_코드 생활/건강 14 음반 1422 식품 16 과자 1614 식품 16 냉동/간편조리식품 1657 여행/문화 18 문화컨텐츠 1811 패션의류 19 상의 1911 패션의류 19 기타패션의류 1999


격자공간고유번호 칼럼을 통한 파생변수 생성
- 격자공간고유번호를 통한 파생변수 생성
- 외부 데이터(택배송장유통 표준분류 인덱스(전체상품소분류 x 동단위) - 한국데이터거래)를 통해 격자공간고유번호가 배송 위치의 시, 구, 동을 포함하고 있다는 것을 알 수 있다.


- 시(location_city)
- 구(location_county/district)
- 동(location_neighborhood)
- 나머지(location_detail)


모델링 - XGBoost
- XGBoost의 XGBRegressor를 이용


References
- 물류 유통량 예측 경진대회 - DACON
- 영컬티, Private 28위, Private 점수 : 9.31067, Xgboost - DACON
- 영컬티, Private 28위, Private 점수 : 9.31067, Xgboost - DACON
🏋🏻 개인적으로 공부한 내용을 기록하고 있습니다.
잘못된 부분이 있다면 과감하게 지적해주세요!! 🏋
반응형
'ML & DL' 카테고리의 다른 글
[Machine Learning] 사이킷 런(scikit-learn) 시작하기 (0) | 2021.11.23 |
---|---|
[Machine Learning] Machine Learning 개념 (0) | 2021.11.23 |
댓글