목록데이터 분석 (33)
귀퉁이 서재

부트스트랩(Bootstrap) 모수의 분포를 추정하는 파워풀한 방법은 현재 있는 표본에서 추가적으로 표본을 복원 추출하고 각 표본에 대한 통계량을 다시 계산하는 것입니다. 이러한 절차를 부트스트랩이라고 합니다. 부트스트랩은 데이터가 정규분포를 따라야 한다는 가정이 꼭 필요하지 않습니다. 1억 개의 모집단에서 뽑은 200개의 표본이 있다고 합시다. 200개로만 통계량을 구하는 것이 아니라 200개를 기준으로 복원 추출하여 새로운 통계량을 구하는 것입니다. 다음은 부트스트랩으로 신뢰구간을 구하는 절차입니다. 1. 200개의 표본 중 하나를 뽑아 기록하고 다시 제자리에 둡니다. 2. 이를 n번 반복합니다. 3. n번 재표본추출한 값의 평균을 구합니다. 4. 1~3 단계를 R번 반복합니다. (R: 부트스트랩 반..

확률 변수, 확률 분포, 확률 표본, 표본 분포 우선, 용어에 대해서 확실하게 정리하고 넘어가겠습니다. 관심 대상인 모집단(Population)의 특성에 대해 알고자 할 때, 모집단 전체를 관찰할 수는 없습니다. 따라서 모집단으로부터 그 일부를 무작위로 뽑아 관측한 결과로부터 모집단 전체의 특성, 즉 모수(Parameter)를 추론하게 되는데, 이렇게 뽑은 모집단의 일부를 표본(Sample)이라고 합니다. 추론에는 통계량(Statistic)이라 불리는 표본의 함수가 사용되는데, 통계량의 분포, 즉 표본 분포를 알아야 합니다. 확률 변수(Random variable)란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치 값으로 표현한 변수를 말합니다. (이름을 임의 변수라고 지었다면 직관적으..

기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다. - 해럴드 제프리스 경 해럴드 제프리스 경이 말한 것처럼 베이즈 정리는 인공지능과 통계학에 지대한 영향을 끼친 중요한 통계학 이론입니다. 베이즈 추정이란? 협력업체로부터 납품받은 기계의 성능을 평가한다고 해봅시다. 그러기 위해서는 납품받은 몇 개의 부품을 무작위로 뽑아 이 표본에서 얻어진 정보만으로 모수(협력업체로부터 납품받은 기계 전체)의 성능을 평가해야 합니다. 하지만 과거 납품 시 성능검사기록이나 비슷한 부품의 성능 자료, 이 부품의 물리적 특성에 관한 지식 등을 통해 이 부품의 사전 정보를 얻을 수도 있습니다. 이런 경우 단순히 표본을 통해 모수를 추정하기보다는 표본 정보와 사전 정보를 함께 사용하여 모수를 추정하는 것이 보다 바람..

우선 이항 분포를 위키피디아에서 검색해보겠습니다. 이항 분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 이러한 시행은 베르누이 시행이라고 불리기도 하며, n=1일 때 이항 분포를 베르누이 분포라고도 한다. (Reference1) 동전을 던지거나 시험을 보는 경우 나타날 수 있는 결과의 집합은 {앞면, 뒷면}, {합격, 불합격}으로 둘밖에 없습니다. 이와 같이 나올 수 있는 결과가 둘 뿐인 확률 실험을 베르누이 실험(Bernoulli experiment)이라고 하고, 동일한 베르누이 실험을 반복할 때 각각의 실험을 베르누이 시행(Bernoulli trial)이라고 합니다. 베르누이 분포는 매우 단순하기 때문에 그 자체보다는, 베르누이 시행을 독립적으로 반복하여 나..

심슨의 역설 (Simpson's paradox)이란? 심슨이라는 통계학자가 정리한 역설로, 각각의 변수에 대한 가중치나 특성을 고려하지 않고 전체 통계 결과를 유추하다 보면 발생할 수 있는 오류를 뜻합니다. 예를 들어 보겠습니다. K대학교에는 전산학과와 산업디자인학과 밖에 없다고 가정합시다. K대학교의 남녀 합격률을 조사해보니 남학생 합격률이 훨씬 높다는 항의가 들어왔습니다. 아래의 표를 봅시다. 전체 지원자 합격자 합격률 남학생 1,000명 730명 73% 여학생 1,000명 270명 27% 남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로..
자유도(Degree of freedom) 자유도를 위키피디아에서 검색해봤습니다. 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. (Reference1) 무슨 말인지 예를 들어 설명해보겠습니다. A, B, C, D라는 4명의 사람이 a, b, c, d라는 물건을 선택한다고 합니다. A가 먼저 선택을 합니다. a, b, c, d 중 b를 선택했다고 합시다. A - b가 매칭이 되었습니다. B는 a, c, d 중에 선택을 해야 합니다. B는 a를 선택했습니다. C는 남은 c, d 중 d를 선택했습니다. A - b, B - a, C - d가 매칭이 된 상태에서 D는 선택의 여지가 없습니다. c 밖에 남지 않았기 때문이죠. 4명의 사람이 있고, 4개의 선택지가 있을 때 ..

통계학의 구분 통계학은 크게 기술 통계학(Descriptive Statistics)과 추측 통계학(Inferential Statistics)으로 구분할 수 있습니다. 기술통계학에서 '기술'은 technique이 아니라 description입니다. 즉, '기술하다, 묘사하다' 할 때의 기술입니다. 기술 통계란 현재 가지고 있는 데이터를 기반으로 객관적 사실만을 나타내는 통계를 의미합니다. 반면, 추측 통계학은 현재 가지고 있는 데이터로부터 더 큰 집단의 특징을 추측하는 통계학입니다. 예를 들어보겠습니다. 5만명의 집단에서 5천 명만 조사하여 특징을 찾아냈다고 합니다. 5천 명에 데이터는 실제 가지고 있으므로 5천 명에 대한 통계는 기술 통계입니다. 하지만 5천 명으로부터 5만 명의 집단에 대한 특징을 추론..

양적 데이터 (Quantitative, Numeric) : 수학 연산을 할 수 있는 수치 값 질적 데이터 (Qualitative, Categorical) :범주로 나누어지는 값 연속형 (Continuos) ex) 키, 나이, 수입 순서형 (Ordinal) Grade, 순위(랭킹) 이산형 (Discrete) ex) 사과의 갯수, 책의 페이지 수 명목형 (Nominal) 성별, 뷔페의 음식 메뉴, 우편 번호 양적 데이터는 수학 연산 (덧셈, 뺄셈, 곱셈, 나눗셈 등)을 할 수 있는 데이터를 의미합니다. 양적 데이터는 다시 연속형 데이터와 이산형 데이터로 나뉩니다. 연속형 데이터는 데이터의 수치(값)가 연속되어 있는 데이터를 의미합니다. '키'를 예로 들면 170cm와 171cm 사이에는 무한히 많은 값이 존..

통계를 배제하고 판다스만을 활용하여 toy project로 Medical Appointment No-show를 분석해봤습니다. 데이터는 Kaggle에서 가져왔습니다. (Reference1) 본 링크에서 csv 파일을 다운 받을 수 있습니다. Jupyter notebook으로 보시려면 제 깃헙 혹은 nbviewer를 참고하시기 바랍니다. 깃헙으로 들어가면 Jupyter notebook을 렌더링하는데 시간이 오래걸리거나 렌더링에 실패할 수도 있습니다. nbviewer는 Jupyter notebook을 미리 렌더링해서 보여주는 페이지입니다. (Reference2) 제 깃헙을 참고하실 분은 (Reference3) Introduction 캐글의 'Medical Appointment No Shows' 데이터를 활용..

데이터 분석 프로세스는 아래와 같이 총 5단계로 진행됩니다. Ask Questions - Wrangle Data (gather, access, clean) - Perform EDA (Exploratory Data Analysis) - Draw conclusions (or even make predictions) - Communicate your results Ask Questions 주어진 데이터를 기반으로 어떤 분석을 할 수 있을지 질문해보는 단계입니다. Wrangle Data (gather, access, clean) 데이터를 수집하고, 데이터에 접근하고, 데이터 전처리를 하는 단계입니다. 데이터를 수집할 수 있는 방법은 여러가지가 있습니다. 웹 상에서 파일로 다운을 받거나, API를 통해 받아오거나..

파이썬으로 데이터분석하는 사람들에게 주피터는 너무나 유명해서 자세한 설명은 생략하겠습니다. Jupyter는 Julia, Python, R의 약자입니다. 주피터 노트북은 text document, code, 수식, 그래프, 코드 결과를 하나의 파일 (.ipynb)에 담을 수 있는 장점이 있습니다. 기존 방식대로라면 text document는 word 파일에, code는 code editor에 담아야 했고, 그래프 등의 시각화자료는 별도의 창에서 볼 수 있었습니다. (Reference1)을 보시면 이해가 쉽게 갈 겁니다. 주피터 노트북의 동작원리는 아래와 같습니다. 브라우저에 코드를 입력해주면 주피터 서버에서 처리를 해주고 결과 값을 브라우저에 렌더링해줍니다. Jupyter Notebook 설치 및 실행 c..

Anaconda란? Anaconda(아나콘다)는 데이터 사이언스를 위한 패키지 배포판입니다. Windows, Linux, Mac OS 환경에서 사용가능하며, conda라는 package, environment 매니저를 사용합니다. conda를 이용해서 서로 다른 버전의 파이썬 (python2, python3)이나 서로 다른 패키지 등을 쓰는 독립적인 프로젝트 환경을 만들 수 있습니다. 그렇게 만들어진 환경 안에서 원하는 패키지를 설치, 삭제, 업데이트할 수 있습니다. Anaconda 설치 우선, (Reference1) 본 링크에서 Anaconda를 다운받습니다. python2 말고 python3 버전을 받되, 본인의 환경에 맞는 것을 다운 받습니다. 저는 windows 64-bit 버전을 받았습니다. 프..

데이터 분석 공부를 체계적으로 하고 싶어 여러 사이트 및 학원을 알아봤습니다. 패스트캠퍼스 같은 오프라인 교육부터 코세라, 유데미, 유다시티, K-MOOC와 같은 온라인 교육까지 꼼꼼히 비교를 해봤습니다. 우선 오프라인 교육은 단기 교육이 많습니다. 키포인트 위주로 배울 뿐이지 많은 양을 체계적으로 학습할 수 있을 것 같진 않았습니다. K-MOOC는 사이트를 들어가자 마자 나왔습니다. 관리를 거의 안하고 있고, 컨텐츠도 퀄리티가... 코세라는 무료 강좌지만 교수가 한 강좌 전체를 강의하기 때문에 다양성 혹은 체계성이 부족할 것이라 생각했습니다. (물론 추후에 집중 심화 학습할 땐 상당히 유용할 것 같았습니다.) 유데미는 다양한 주제의 단기 과정이 많아 저의 취지와는 맞지 않았습니다. 그래서 최종적으로 U..