목록전체 글 (259)
귀퉁이 서재

독립 변수 x를 제곱하거나 서로 곱함으로써 higher order term을 만들 수 있습니다. 보통 x₁² (quadratics) x₁³ (cubics), x₁x₂ (interactions)를 많이 씁니다. quadratics와 cubics는 회귀 모델이 곡선일 때 쓰이며, interactions는 x₁의 변화가 x₂에 따라 달라질 때 쓰입니다. interaction을 써야 하는 경우에 대해 설명하겠습니다. 보라색 선은 neighborhood B일 때 Area에 따른 price 회귀선이며, 파란색 선은 neighborhood A일 때 Area에 따른 price 회귀선입니다. 두 회귀선 모두 기울기는 b₁입니다. 즉 neighborhood A이든 neighborhood B이든 Area의 증가에 따른 pr..

이번 시간에는 다중공선성과 VIF에 대해 알아보겠습니다. 독립 변수 X는 종속 변수 Y 하고만 상관 관계가 있어야 하며, 독립 변수끼리 상관 관계가 있어서는 안 됩니다. 독립 변수간 상관 관계를 보이는 것을 다중공선성(Multicollinearity)이라고 합니다. 다중공선성이 있으면 부정확한 회귀 결과가 도출됩니다. (X와 Y의 상관 관계가 반대로 나온다던가 검정 결과가 다르게 나온다던가 말이죠.) 회귀 모델에 다중공선성이 있는지 파악하는 방법은 두 가지가 있습니다. 1. 산점도 그래프 (Scatter plot Matrix) 2. VIF (Variance Inflation Factors, 분산팽창요인) 산점도 그래프를 통해 독립 변수끼리 상관 관계가 있는지 파악하는 방법에 대해서는 아래 Python 코..

본 챕터는 이전 챕터와 내용이 연결되어 있습니다. 가변수를 활용하여 범주형 데이터를 양적 데이터로 변환하기 이전 챕터에서 범주형 데이터(categorical data)를 제외하고 양적 데이터(quantitative data)만을 사용해서 회귀 결과를 도출했습니다. 본 챕터에서는 회귀 모형에서 범주형 데이터를 어떻게 사용할 수 있는지 알아보겠습니다. 가변수(dummy variables)라는 것을 활용하여 회귀 모형에 범주형 데이터를 추가할 수 있습니다. 이전 챕터에서 Neighborhood와 Style이 범주형 데이터였습니다. Neighborhood에는 A, B, C 총 3개의 데이터가 있습니다. 이 데이터를 양적 데이터로 바꾸기 위해서 위 그림과 같이 가변수(dummy variables)를 사용하는 것입..

이전 챕터에서는 단순 선형 회귀 모델에 대해서 배워봤습니다. 단순 선형 회귀식은 아래와 같습니다. 이번 챕터에서는 다중 선형 회귀(Multiple Linear Regression)에 대해 알아보겠습니다. 다중 선형 회귀식은 아래와 같습니다. 상관 계수(correlation coefficient)는 두 변수 간 선형 관계를 나타내는 척도이기 때문에 단순 선형 회귀에만 쓰이고, 다중 선형 회귀에는 쓰이지 않습니다. 또한, 다중 선형 회귀식에서 양적 데이터 (quantitative) 뿐만 아니라 범주형 데이터 (categorical)도 사용하는 방법을 알아보겠습니다. 아래는 5개의 조건에 따른 집 값을 나타낸 표입니다. 종속 변수 독립 변수 집 값 지역 크기 침실 개수 화장실 개수 집 스타일 $634K A 1..

본 챕터에서는 선형 회귀에 대해 알아보겠습니다. 통계학에서, 선형 회귀(Linear regression)는 종속 변수(또는 응답 변수) y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관관계를 모델링하는 회귀분석 기법이다. 한 개의 독립 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 독립 변수에 기반한 경우에는 다중 선형 회귀라고 한다. (Reference1) 선형 회귀 그래프로는 산점도(Scatter plots)를 많이 활용합니다. 그리고 독립 변수와 종속 변수 간의 상관관계를 나타내는 척도를 상관 계수(correlation coefficient)라고 합니다. 상관 계수는 보통 r로 표기합니다. 여러 상관 계수가 있지만 선형 회귀의 상관 계수로 가장 많이 쓰이는 것은 피어슨 상관 ..

모든 이를 위한, 그러나 그 누구의 것도 아닌 책 프로이트, 마르크스, 니체는 20세기를 뒤흔든 3대 혁명적 사상가로 꼽힌다. 니체는 내가 가장 좋아하는 철학자 중 한 명이고, '짜라투스트라는 이렇게 말했다'는 내가 가장 좋아하는 책 중 하나다. 이 책은 지금까지 총 3번 읽었다. 읽을수록 새로운 내용이 눈에 들어오는 매력적인 책이다. 프리드리히 니체는 기존의 도덕과 가치, 철학적 사상을 한 번에 무너뜨린 파괴적인 철학자다. 그는 플라톤부터 굳건하게 이어진 기존 서양철학에 과감하게 도전장을 내밀었다. 기존의 틀을 모두 무너뜨리고 혁명적인 철학을 구축했다는 점에서 그는 철학사의 빼놓을 수 없는 거물이 되었다. 이 책을 3번 읽다보니 밑줄 친 곳이 굉장히 많았다. 거의 매 장마다 잠언들로 가득하다. 추리고 ..

A/B Test A/B Test는 마케팅이나 웹 페이지 개선에 많이 쓰이는 테스트 기법입니다. 기존의 웹페이지를 새로운 디자인으로 바꾸기 전에 이 디자인이 정말 고객에게 효과가 있는지를 먼저 판단해야 할 것입니다.기존의 웹페이지(A)와 새로 디자인된 웹페이지(B)가 있을 때, 새로 디자인된 웹페이지가 더 효과가 있는지(고객을 더 많이 유입하는지, 고객의 클릭률을 더 많이 유도하는지, 구매율을 높이는지, 고객 만족도를 높이는지 등)를 테스트하는 것이 A/B test입니다. 특정 그룹에는 기존 웹페이지만 보여주고, 또 다른 특정 그룹에는 새로 디자인된 웹페이지를 보여줍니다. 여기서 기존 웹페이지를 보는 그룹을 대조군, 새로운 웹페이지를 보는 그룹을 실험군이라고 합니다. 귀무가설과 대립가설은 아래와 같습니다...

p-value에 대해서는 앞선 챕터에서 간단히 알아봤습니다. 본 챕터에서는 p-value가 가지고 있는 함정에 대해 알아볼 것입니다. 바로 이전 챕터에서 설명한 것처럼, 통계적 유의성이 항상 실질적 유의성으로 귀결되는 것은 아닙니다. 또한, p-value를 통계적 유의성을 판단할 수 있는 중요한 지표 중 하나로 생각해야지, p-value 자체를 연구의 목적으로 생각해서는 안됩니다. 하지만, 유의미한 p-value를 도출하기 위해 가설검정 자체를 조작하는 연구자들도 간혹 있다고 합니다. p-value는 통계적 유의성의 척도(measure)이지, p-value 자체가 목적(target)은 아닙니다. "When a measure become a target, it is no longer a measure“. ..

표본의 크기 (sample size)가 아주 크다면, 작은 차이조차도 민감하게 받아들여 어떠한 가설이라도통계적으로 유의하다는 결과가 나올 수 있습니다. 따라서 항상 대립가설을 채택하게 됩니다. 하지만 통계적으로 유의하다고, 실질적으로 유의한 것은 아니므로 주의를 해야 합니다. With large sample sizes, hypothesis testing leads to even the smallest of findings as statistically significant. However, these findings might not be practically significant at all. 정말 표본의 크기가 크면, 통계적으로 유의한 결과가 나오는지 실습해보겠습니다. 실습용 데이터는 제 깃헙에서 받..

가설검정 가설검정(Test of hypotheses)이란 자연법칙이나 사회현상에 대한 관찰 결과를 기반으로 두 가지 가설을 세우고 그 두 가설 중 어느 것이 참인지를 가려내는 것입니다. 가설검정은 학문적 연구에서 뿐만 아니라, 실생활과 관련된 거의 모든 분야에서 쓰입니다. 정책결정, 마케팅 전략 결정, 소비자 선호도를 반영한 제품 설계 등의 문제가 모두 가설검정의 영역에 속한다고 할 수 있습니다. 귀무가설과 대립가설 가설검정을 하기 위해서는 서로 대립되는 가설 두 개를 세웁니다. 통상적으로 새로 제기되는 주장을 대립가설(alternative hypothesis)로 하고, 지금까지 사실로 인식되어온 주장을 귀무가설(null hypothesis)로 합니다. 암을 치료하는 신약이 개발되어 효과성을 측정한다고 ..

부트스트랩(Bootstrap) 모수의 분포를 추정하는 파워풀한 방법은 현재 있는 표본에서 추가적으로 표본을 복원 추출하고 각 표본에 대한 통계량을 다시 계산하는 것입니다. 이러한 절차를 부트스트랩이라고 합니다. 부트스트랩은 데이터가 정규분포를 따라야 한다는 가정이 꼭 필요하지 않습니다. 1억 개의 모집단에서 뽑은 200개의 표본이 있다고 합시다. 200개로만 통계량을 구하는 것이 아니라 200개를 기준으로 복원 추출하여 새로운 통계량을 구하는 것입니다. 다음은 부트스트랩으로 신뢰구간을 구하는 절차입니다. 1. 200개의 표본 중 하나를 뽑아 기록하고 다시 제자리에 둡니다. 2. 이를 n번 반복합니다. 3. n번 재표본추출한 값의 평균을 구합니다. 4. 1~3 단계를 R번 반복합니다. (R: 부트스트랩 반..

확률 변수, 확률 분포, 확률 표본, 표본 분포 우선, 용어에 대해서 확실하게 정리하고 넘어가겠습니다. 관심 대상인 모집단(Population)의 특성에 대해 알고자 할 때, 모집단 전체를 관찰할 수는 없습니다. 따라서 모집단으로부터 그 일부를 무작위로 뽑아 관측한 결과로부터 모집단 전체의 특성, 즉 모수(Parameter)를 추론하게 되는데, 이렇게 뽑은 모집단의 일부를 표본(Sample)이라고 합니다. 추론에는 통계량(Statistic)이라 불리는 표본의 함수가 사용되는데, 통계량의 분포, 즉 표본 분포를 알아야 합니다. 확률 변수(Random variable)란 무작위 실험을 했을 때, 특정 확률로 발생하는 각각의 결과를 수치 값으로 표현한 변수를 말합니다. (이름을 임의 변수라고 지었다면 직관적으..

기하학에 피타고라스 정리가 있다면 확률론에는 베이즈 정리가 있다. - 해럴드 제프리스 경 해럴드 제프리스 경이 말한 것처럼 베이즈 정리는 인공지능과 통계학에 지대한 영향을 끼친 중요한 통계학 이론입니다. 베이즈 추정이란? 협력업체로부터 납품받은 기계의 성능을 평가한다고 해봅시다. 그러기 위해서는 납품받은 몇 개의 부품을 무작위로 뽑아 이 표본에서 얻어진 정보만으로 모수(협력업체로부터 납품받은 기계 전체)의 성능을 평가해야 합니다. 하지만 과거 납품 시 성능검사기록이나 비슷한 부품의 성능 자료, 이 부품의 물리적 특성에 관한 지식 등을 통해 이 부품의 사전 정보를 얻을 수도 있습니다. 이런 경우 단순히 표본을 통해 모수를 추정하기보다는 표본 정보와 사전 정보를 함께 사용하여 모수를 추정하는 것이 보다 바람..

우선 이항 분포를 위키피디아에서 검색해보겠습니다. 이항 분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 이러한 시행은 베르누이 시행이라고 불리기도 하며, n=1일 때 이항 분포를 베르누이 분포라고도 한다. (Reference1) 동전을 던지거나 시험을 보는 경우 나타날 수 있는 결과의 집합은 {앞면, 뒷면}, {합격, 불합격}으로 둘밖에 없습니다. 이와 같이 나올 수 있는 결과가 둘 뿐인 확률 실험을 베르누이 실험(Bernoulli experiment)이라고 하고, 동일한 베르누이 실험을 반복할 때 각각의 실험을 베르누이 시행(Bernoulli trial)이라고 합니다. 베르누이 분포는 매우 단순하기 때문에 그 자체보다는, 베르누이 시행을 독립적으로 반복하여 나..

심슨의 역설 (Simpson's paradox)이란? 심슨이라는 통계학자가 정리한 역설로, 각각의 변수에 대한 가중치나 특성을 고려하지 않고 전체 통계 결과를 유추하다 보면 발생할 수 있는 오류를 뜻합니다. 예를 들어 보겠습니다. K대학교에는 전산학과와 산업디자인학과 밖에 없다고 가정합시다. K대학교의 남녀 합격률을 조사해보니 남학생 합격률이 훨씬 높다는 항의가 들어왔습니다. 아래의 표를 봅시다. 전체 지원자 합격자 합격률 남학생 1,000명 730명 73% 여학생 1,000명 270명 27% 남학생, 여학생 모두 1,000명씩 지원을 했는데 남학생은 73%나 합격하고 여학생은 27% 밖에 합격하지 못했습니다. 음.. K대학교는 남학생에게 특혜를 주는 것 같습니다. 보다 자세한 조사를 위해 각 학과 별로..
자유도(Degree of freedom) 자유도를 위키피디아에서 검색해봤습니다. 통계적 추정을 할 때 표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수를 말한다. (Reference1) 무슨 말인지 예를 들어 설명해보겠습니다. A, B, C, D라는 4명의 사람이 a, b, c, d라는 물건을 선택한다고 합니다. A가 먼저 선택을 합니다. a, b, c, d 중 b를 선택했다고 합시다. A - b가 매칭이 되었습니다. B는 a, c, d 중에 선택을 해야 합니다. B는 a를 선택했습니다. C는 남은 c, d 중 d를 선택했습니다. A - b, B - a, C - d가 매칭이 된 상태에서 D는 선택의 여지가 없습니다. c 밖에 남지 않았기 때문이죠. 4명의 사람이 있고, 4개의 선택지가 있을 때 ..

통계학의 구분 통계학은 크게 기술 통계학(Descriptive Statistics)과 추측 통계학(Inferential Statistics)으로 구분할 수 있습니다. 기술통계학에서 '기술'은 technique이 아니라 description입니다. 즉, '기술하다, 묘사하다' 할 때의 기술입니다. 기술 통계란 현재 가지고 있는 데이터를 기반으로 객관적 사실만을 나타내는 통계를 의미합니다. 반면, 추측 통계학은 현재 가지고 있는 데이터로부터 더 큰 집단의 특징을 추측하는 통계학입니다. 예를 들어보겠습니다. 5만명의 집단에서 5천 명만 조사하여 특징을 찾아냈다고 합니다. 5천 명에 데이터는 실제 가지고 있으므로 5천 명에 대한 통계는 기술 통계입니다. 하지만 5천 명으로부터 5만 명의 집단에 대한 특징을 추론..

양적 데이터 (Quantitative, Numeric) : 수학 연산을 할 수 있는 수치 값 질적 데이터 (Qualitative, Categorical) :범주로 나누어지는 값 연속형 (Continuos) ex) 키, 나이, 수입 순서형 (Ordinal) Grade, 순위(랭킹) 이산형 (Discrete) ex) 사과의 갯수, 책의 페이지 수 명목형 (Nominal) 성별, 뷔페의 음식 메뉴, 우편 번호 양적 데이터는 수학 연산 (덧셈, 뺄셈, 곱셈, 나눗셈 등)을 할 수 있는 데이터를 의미합니다. 양적 데이터는 다시 연속형 데이터와 이산형 데이터로 나뉩니다. 연속형 데이터는 데이터의 수치(값)가 연속되어 있는 데이터를 의미합니다. '키'를 예로 들면 170cm와 171cm 사이에는 무한히 많은 값이 존..

통계를 배제하고 판다스만을 활용하여 toy project로 Medical Appointment No-show를 분석해봤습니다. 데이터는 Kaggle에서 가져왔습니다. (Reference1) 본 링크에서 csv 파일을 다운 받을 수 있습니다. Jupyter notebook으로 보시려면 제 깃헙 혹은 nbviewer를 참고하시기 바랍니다. 깃헙으로 들어가면 Jupyter notebook을 렌더링하는데 시간이 오래걸리거나 렌더링에 실패할 수도 있습니다. nbviewer는 Jupyter notebook을 미리 렌더링해서 보여주는 페이지입니다. (Reference2) 제 깃헙을 참고하실 분은 (Reference3) Introduction 캐글의 'Medical Appointment No Shows' 데이터를 활용..
라우팅이란? 라우팅(routing)이란 네트워크 안에서 통신 데이터를 보낼 경로를 선택하는 과정입니다. (Reference1) 예를 들어보겠습니다. 서울에서 부산까지 가는 길은 여러 개가 있습니다. "그중 이 경로를 통해서 서울에서 부산까지 가라!"라고 지정해주는 것이 라우팅입니다. 마찬가지로 블로그에는 여러 메뉴바가 있을 겁니다. 이 메뉴바를 클릭하면 이 페이지로 가고, 저 메뉴바를 클릭하면 저 페이지로 가라! 라고 지정을 해주는 것입니다. 블로그에 라우팅 적용 terrace 디렉토리에서 아래와 같이 vue-router를 설치해줍니다. npm install vue-router frontend/home/src 디렉토리의 App.vue를 아래와 같이 수정합니다. 코드를 먼저 나열한 뒤 마지막에 설명하겠습니..