목록캐글 (Kaggle) (11)
귀퉁이 서재
시리즈로 소개한 제 책 《머신러닝·딥러닝 문제해결 전략》의 마지막 글을 공유합니다. 이번 글에서는 머신러닝 문제를 실제로 풀어가는 과정을 소개합니다. 탐색적 데이터 분석부터 베이스라인 모델 설계, 성능 개선까지 차근차근 설명합니다. 수많은 캐글 수상작을 리팩터링한 문제해결 프로세스를 이 글에서 경험해보시기 바랍니다. [캐글 안내서] 캐글러들은 머신러닝 딥러닝 문제를 어떻게 풀까? https://bit.ly/387QO9Q 캐글이란 무엇인지, 캐글을 어떻게 시작해야 하는지 궁금하다면 이전 글들 먼저 읽어주세요. [캐글 안내서] 캐글, 이렇게 시작하세요 https://bit.ly/3ytYvSr [캐글 안내서] 왜 캐글을 해야 할까? https://bit.ly/3N056bv
책 속의 글을 소개하는 이번 시간에는 캐글이란 무엇이고, 왜 해야 하는지, 주요 메뉴 구성과 개념을 소개한 ‘[캐글 안내서] 왜 캐글을 해야 할까?’에 이어 캐글에 가입하고 경진대회에 참여해 결과를 제출해 컨트리뷰터가 돼 보는 전 과정을 스크린샷과 함께 살펴봅니다. 속 이 두 글이면 캐글을 시작하는 데 충분할 안내가 될 것입니다. 두 글을 무료로 공개합니다. [캐글 안내서] 캐글, 이렇게 시작하세요 https://bit.ly/3ytYvSr [캐글 안내서] 캐글을 왜 해야 할까? https://bit.ly/3N056bv
“데이터 과학자를 위한 놀이터.”라고도 불리는 캐글. 캐글은 데이터 과학, 머신러닝 경진대회를 주관하는 온라인 커뮤니티입니다. 어떤 이유에서 수많은 데이터 과학자들이 왜 캐글을 추천할까요? 캐글이란 무엇이고, 이를 통해 무엇을 얻을 수 있을까요? 취업에는 어떤 도움이 될까요? 의 단편 글에서 왜 캐글을 시작해야 하는지 그 의문에 답을 드립니다. '캐글이란 무엇이고, 인공지능과 데이터 과학의 위상이 날로 높아지는 오늘날 캐글이 왜 중요한지' 설명하는 챕터 전체를 무료로 공개합니다. 다음 링크에서 보실 수 있습니다. https://bit.ly/3N056bv
대회 데이콘의 AI프렌즈 시즌1 온도 추정 경진대회 대회 설명 우리나라에는 전국에 걸쳐 시도별 기상관측소가 있어 지역별 기온을 알 수 있습니다. 하지만, 각 지역 내에서도 대상과 위치에 따라 온도 차이가 매우 많이 납니다. 더운 여름날 뜨거운 아스팔트 위를 걸어보셨거나, 겨울철 칼바람 부는 교량 위를 걸어보신 분들은 체감하셨을 겁니다. 그렇다고 '모든 곳'에 관측소를 만들어 '지속적'으로 측정하기란 현실적으로 어렵습니다. 그래서 생각해 낸 방법이 ‘기상청 공공데이터를 활용한 온도 추정’입니다. 저가의 센서로 관심대상의 온도를 단기간 측정하여 기상청의 관측 데이터와의 상관관계 모델을 만들고, 이후엔 생성된 모델을 통해 온도를 추정하여 서비스하는 것입니다. 2013년 10월부터 시행된 ‘공공데이터의 제공 및..
7번째로 필사한 대회는 Statoil/C-CORE Iceberg Classifier Challenge입니다. 바다 위에 떠다니는 빙하는 위협적인 존재입니다. 타이나닉 호도 빙하에 부딪혀 침몰했으니 말이죠. 빙하가 어디에 위치해있는지 판단할 수 있다면 이런 사고를 막을 수 있을 겁니다. 본 대회는 위성으로 찍은 사진을 기반으로 그 물체가 빙하인지 배인지 분류하는 대회입니다. (Statoil과 C-CORE는 회사 이름입니다.) (Kaggle: Statoil/C-CORE Iceberg Classifier Challenge) 데이터의 속성(feature)는 band_1, band_2, inc_angle로 단 3가지입니다. band_1과 band_2 column은 한 element 당 75x75 = 5,625개의..
6번째로 커널 필사를 한 대회는 Costa Rican Household Poverty Level Prediction입니다. 한 가정이 가지고 있는 140여 개의 속성을 기반으로 그 가정이 가난한 가정인지 부유한 가정인지 판단하는 대회입니다. 훈련 데이터 9,500개, 테스트 데이터 23,000개로 테스트 데이터가 더 많습니다. feature는 총 142개로 이루어져 있습니다. (Kaggle: Costa Rican Household Poverty Level Prediction) 다른 대회보다 재미있었습니다. 한 가정이 가지고 있는 다양한 속성을 기반으로 가난 여부를 판단하는 것이니 EDA를 하거나 새로운 feature를 만들 때 직관과 일치되는 부분이 많았기 때문입니다. 일련의 작업은 제 깃헙을 참고해주셔..
각 고객의 정보를 기반으로 해당 고객이 대출한 돈을 갚을 수 있을지 없을지에 대한 확률을 예측하는 대회입니다. 본 대회는 다소 어려웠습니다. 우선, 주어진 데이터 파일이 워낙 많다 보니 어떤 것을 어떻게 활용해야 하는지 감이 잘 안 잡혔고, 금융에 대한 도메인 지식도 많이 없다 보니 Feature Engineering을 하는 것이 어려웠습니다. 제 깃헙은 https://github.com/BaekKyunShin/Kaggle/tree/master/Home_Credit_Default_Risk 입니다. A Gentle Introduction Home Credit Default Risk에 대해 전체적으로 훑어보는 커널입니다. EDA, 간단한 Feature Engineering을 통해 예측을 해봅니다. Encod..
Porto Seguro는 브라질의 자동차 보험 회사입니다. 본 경진 대회의 목적은 어떤 차주가 내년에 보험 청구를 할 확률을 예측하는 겁니다. 데이터는 59만 개의 훈련 데이터와 89만 개의 테스트 데이터로 구성되어 있습니다. 테스트 데이터가 훈련 데이터보다 많습니다. 그리고 Null 값이 np.NaN이 아닌 -1로 되어있습니다. 또한, Feature가 무엇을 뜻하는지 제시하지 않았다는 것이 특징입니다. 보통은 특정 Feature가 무엇을 나타내는지 알려줍니다. 예를 들어 집 값을 예측하는 데이터에서 Feature 중 방 크기(Area)가 있습니다. 방 크기가 크면 집 값이 올라갈 것이라는 예상을 해볼 수 있습니다. 하지만 Porto Seguro 컴피티션에는 각 Feature가 무엇을 의미하는지 알 수 ..
샌프란시스코의 범죄에 대한 컴피티션입니다. (https://www.kaggle.com/c/sf-crime) 2003.1.6.부터 2015.5.13. 까지의 샌프란시스코에서 발생한 범죄에 대한 정보를 기반으로 분석을 해야 합니다. 훈련 데이터와 테스트 데이터는 매주 로테이션됩니다. 즉 1, 3, 5, 7,... 주는 훈련 데이터, 2, 4, 6, 8,..... 주는 테스트 데이터로 쓰입니다. 총 훈련 데이터는 약 870,000개입니다. 테스트 데이터까지 하면 170만 건입니다. 12년 동안 샌프란시스코에서만 170만 건의 범죄가 일어났다니.. '새삼 범죄가 많은 도시구나' 알게 되었습니다. Feature는 아래와 같습니다. Dates - 범죄가 일어난 일시 Category - 범죄 유형 (이 값이 Targ..
과거 판매량 데이터를 기반으로 향후 판매량을 예측하는 컴피티션입니다. (Data 링크) Coursera의 Data Science 강의 최종 과제이기도 한 문제랍니다. 훈련데이터는 2013년 1월부터 2015년 10월까지의 물품 정보 및 판매량이며, 테스트 데이터는 2015년 11월 물품 정보입니다. 이를 기반으로 11월 물품의 판매량을 예측하는 것입니다. Top 랭크가 되어 있는 notebook중 하나인 Feature engineering, xgboost를 참고했습니다. 사실 다른 기법보다도 Feature Engineering에 집중했습니다. 기본적인 중복 처리, Null 체크, Outlier 처리 등을 한 뒤, 카테고리 데이터를 인코딩 했습니다. 그리고 나서 바로 Feature Engineering을 ..
자전거 대여 수량을 예측하는 컴피티션을 해봤습니다. (Kaggle 링크: https://www.kaggle.com/c/bike-sharing-demand) 2011년부터 2012년에 수집한 데이터를 기반으로 합니다. 날짜 및 시간, 계절, 공휴일 여부, 날씨, 온도, 체감 온도, 습도, 풍속, 회원 여부에 따라 자전거 대여 수량을 예측하는 것입니다. 주어진 데이터가 깔끔한 편이라 EDA 하기에는 편했습니다. 또한 EDA만으로도 자전거 대여 수량에 영향을 미치는 Feature를 뚜렷이 구분할 수 있었습니다. 본 프로젝트를 하기 위해 corazzon님의 유튜브(https://www.youtube.com/watch?v=Q_MbN-vu_2w) 를 참고했습니다. 아래는 본 자전거 대여 수량 컴피티션을 진행한 제 ..