본문 바로가기
ML & DL

[DACON] 물류 유통량 예측 경진대회

반응형

데이터 전처리

필요 없는 칼럼 제거 및 칼럼명 변경

  • Index 제거
    • 단순히 순서를 의미하므로 제거
  • REC_SPG_INNB 제거
    • 운송장 건 수는 수하인이 아닌 송하인에 따라 결정된다고 생각하므로 수하인_격자공간고유번호(REC_SPG_INNB) 칼럼 제거
  • SEND_SPG_INNB 칼럼명 변경
    • SEND_SPG_INNB(송하인_ 격자공간고유번호) -> SPG_INNB(격자공간고유번호)

카테고리 칼럼의 데이터 타입 변환

  • 카테고리 칼럼의 타입 변환 (문자열 -> 숫자)
    • 외부 데이터(전국 상품 물동량 점유율(중분류) - KDX 한국데이터거래)를 통해 상품의 카테고리 대분류 및 중분류 명칭과 추가적인 코드를 얻을 수 있다.
    • 단순한 Label Encoding을 통한 수치 변환 보다 적절한 수치로 변환할 수 있다는 장점이 있다.

DL_GD_LCLS_NM -> DL_GD_LCLS_CD

DL_GD_MCLS_NM -> DL_GD_MCLS_CD

  • NaN값 처리
    • 외부 데이터에 없는 카테고리에 대한 코드는 임의의 값을 넣는다.

    • 카테고리_중 카테고리/중_코드 카테고리_대 카테고리/대_코드
      생활/건강 14 음반 1422
      식품 16 과자 1614
      식품 16 냉동/간편조리식품 1657
      여행/문화 18 문화컨텐츠 1811
      패션의류 19 상의 1911
      패션의류 19 기타패션의류 1999

격자공간고유번호 칼럼을 통한 파생변수 생성

  • 격자공간고유번호를 통한 파생변수 생성
    • 외부 데이터(택배송장유통 표준분류 인덱스(전체상품소분류 x 동단위) - 한국데이터거래)를 통해 격자공간고유번호가 배송 위치의 시, 구, 동을 포함하고 있다는 것을 알 수 있다.
  • 시(location_city)
  • 구(location_county/district)
  • 동(location_neighborhood)
  • 나머지(location_detail)

모델링 - XGBoost

  • XGBoost의 XGBRegressor를 이용

 

References

 


🏋🏻 개인적으로 공부한 내용을 기록하고 있습니다.
잘못된 부분이 있다면 과감하게 지적해주세요!!  🏋
반응형

댓글