목록캐글 (3)
귀퉁이 서재
책 속의 글을 소개하는 이번 시간에는 캐글이란 무엇이고, 왜 해야 하는지, 주요 메뉴 구성과 개념을 소개한 ‘[캐글 안내서] 왜 캐글을 해야 할까?’에 이어 캐글에 가입하고 경진대회에 참여해 결과를 제출해 컨트리뷰터가 돼 보는 전 과정을 스크린샷과 함께 살펴봅니다. 속 이 두 글이면 캐글을 시작하는 데 충분할 안내가 될 것입니다. 두 글을 무료로 공개합니다. [캐글 안내서] 캐글, 이렇게 시작하세요 https://bit.ly/3ytYvSr [캐글 안내서] 캐글을 왜 해야 할까? https://bit.ly/3N056bv
“데이터 과학자를 위한 놀이터.”라고도 불리는 캐글. 캐글은 데이터 과학, 머신러닝 경진대회를 주관하는 온라인 커뮤니티입니다. 어떤 이유에서 수많은 데이터 과학자들이 왜 캐글을 추천할까요? 캐글이란 무엇이고, 이를 통해 무엇을 얻을 수 있을까요? 취업에는 어떤 도움이 될까요? 의 단편 글에서 왜 캐글을 시작해야 하는지 그 의문에 답을 드립니다. '캐글이란 무엇이고, 인공지능과 데이터 과학의 위상이 날로 높아지는 오늘날 캐글이 왜 중요한지' 설명하는 챕터 전체를 무료로 공개합니다. 다음 링크에서 보실 수 있습니다. https://bit.ly/3N056bv
과거 판매량 데이터를 기반으로 향후 판매량을 예측하는 컴피티션입니다. (Data 링크) Coursera의 Data Science 강의 최종 과제이기도 한 문제랍니다. 훈련데이터는 2013년 1월부터 2015년 10월까지의 물품 정보 및 판매량이며, 테스트 데이터는 2015년 11월 물품 정보입니다. 이를 기반으로 11월 물품의 판매량을 예측하는 것입니다. Top 랭크가 되어 있는 notebook중 하나인 Feature engineering, xgboost를 참고했습니다. 사실 다른 기법보다도 Feature Engineering에 집중했습니다. 기본적인 중복 처리, Null 체크, Outlier 처리 등을 한 뒤, 카테고리 데이터를 인코딩 했습니다. 그리고 나서 바로 Feature Engineering을 ..