통계적 의사결정
- 어떤 사건이 우연히 발생할 확률을 묻는 것으로 시작하는 것
통계의 본질
- 분산의 마법
자료의 대표값
- 자료의 대표적인 특징
- 평균, 중간값, 최빈값, 표준편차(분산), 구간, 최소값, 최대값...
평균의 의미와 특징
- 자료의 중심값으로서 자료의 특성을 대표하는 값
- 모든 자료로부터 영향을 받는다.(아웃라이어에 취약하다.)
- 분산(표준편차)의 계산 등 통계 분석의 대표적인 값으로 사용
분산
- 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리
- 제곱합/자유도 = 제곱합의 평균
p-값(p-value, probability value)이란?
- 확률값
- 어떤 사건이 우연히 발생할 확률
- p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미
- 우연히 발생할 확률이 5%보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것
- 즉, 이 사건은 우연히 발생한 것이 아니라 분명히 뭔가 이유(인과관계)가 있다고 추정하는 것
- 기준이 되는 5%는 이정도면 우연은 아닐꺼야라는 수준의 정도
통계적 가설
- H0는 영어로 Null Hypothesis의 약자
- Null이란 비어있다, 아무것도 없다는 뜻
- 우리말로 귀무가설
- 무로 돌아가는 가설이라는 의미
- 아무 영향도 없고 아무 일도 없다라는 것을 가정하는 가설
- H1 또는 Ha는 영어로 Alternative Hypothesis의 약자
- 우리말로 대립가설
- 귀무가설을 대체하는 대립하는 가설
- Null Hypothesis는 거의 언제나 = 0
- Alternative Hypothesis는 != 0
- 가설을 먼저 정해놓고 두개의 가설 중 무엇이 맞을지 검정하는 작업을 하도록 설계
- 사건이 우연히 일어났다라고 가정하는 것이 귀무가설
- 사건이 우연히 일어난 것이 아니고 뭔가 이유(인과관계)가 있다라고 가정하는 것이 대립가설
- 귀무가설이 맞다면 우연히 일어난 것으로 추정
- 대립가설이 맞다면 우연히 일어난 것이 아닌 뭔가 이유(인과관계)가 있다고 추정
- p-값이 0.05보다 작다면 대립가설을 선택
- p-값이 0.05보다 크다면 귀무가설을 선택
통계적 가설과 검정
진실 | |||
H0이 참 | H0이 거짓 | ||
연구결과 | H0이 참 | 문제없음 | 2종오류(β) |
H0이 거짓 | 1종오류(α) | 문제없음 |
- 1종오류가 더 문제
- 1종오류(α)의 기준이 5%이고 이 5%가 p-값의 기준
- p-값의 확률값은 1종오류의 수준을 5%로 제약한다는 의미로 사용되는 것
- 어떤 사건이 우연히 발생했음에도 우연히 발생하지 않았다고 결론 내릴 오류를 5% 이내로 하겠다는 것
변수(Variable)
- 하나의 개념을 대표하는 상징으로서 그것의 특성이 갖는 값이나 강도 또는 크기의 차이를 나타낼 수 있는 것
- 명목변수/척도(Nominal)
-- 각 범주(속성)간 순위가 없다.
-- 범주에 할당된 값은 범주 이름을 대신할 뿐 의미가 없다.
-- 예) 성별/인종/혈액형 등
- 순위변수/척도(Ordinal)
-- 각 범주(속성)간 순위가 있다.
-- 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다.
-- 순위 사이에 등간성은 없다.
-- 예) 성적/학력/경제수준/리커르트 척도
- 구간변수척도(Interval)
-- 측정된 범주 사이에 등간성이 있다.
-- 할당된 값은 임의 단위로서 비율이나 절대 '0'의 의미가 없다.
-- 따라서 덧셈은 가능하나 곱셈은 안된다.
-- 예) 온도
- 비율변수/척도(Ratio)
-- 측정된 범주 사이에 등간성이 있다.
-- 할당된 값은 임의 단위로서 비율과 절대 '0'의 의미가 있다.
-- 덧셈과 곱셈 모두 가능하다.
-- 예) 키/몸무게/나이/시간
- 대부분의 경우 이산/범주형변수는 질적변수인 경우가 많고,
- 연속형변수는 양적변수인 경우가 많다.
상관관계
- 한 변수와 다른 변수가 공변하는 함수관계
- 양의 상관관계
-- 두 변수가 같은 방향으로 움직인다.
- 음의 상관관계
-- 두 변수가 다른 방향으로 움직인다.
- 상관관계를 나타내는 상관계수는 힘 & 방향 두가지를 의미한다.
- 상관관계는 인과관계가 아니다.
- 두 변수가 서로 관계가 있는지 없는지에 대한 것
상관계수
- 상관계수는 -1부터 +1까지만 존재
- 상관계수가 -1일 때, 완벽한 음의 상관관계
- 상관계수가 0일 때, 아무런 관계도 없음
- 상관계수가 +1일 때, 완벽한 양의 상관관계
- 상관계수의 부호는 방향을 의미
- 상관계수의 크기는 힘을 의미
-- 상관계수가 절대값 1에 가까울수록 힘이 세다
-- 힘이 세다는 것은 scatter plot으로 그렸을 때 데이터들이 가깝게 모여있다는 의미
-- 따라서 데이터들이 퍼져있으면 상관계수가 0에 가까워짐
- scatter plot으로 그렸을 때 점들이 이루는 선의 각도가 바뀌어도 상관계수의 변화가 없음
- 각도가 높을 수록 상관관계가 강한 것이 아님
- 직선관계만을 측정할 수 있음
t-test
- 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법
t-test 목적
- 두개의 집단이 같은지 다른지 비교하기 위해 사용
- 두 집단의 평균값이 통계적으로 같은지 다른지를 확인
- 두 집단의 평균값의 차이가 우연히 발생했을 확률을 확인
t-test를 위한 통계적 질문
- 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까?
t-test에 대한 보다 깊은 이해
- 차이가 얼마나 큰지 작은지 결정할 비교 대상은 표준변차(분산)
- 표준편차는 데이터에 큰 문제가 없는한 의미 없는 우연히 퍼져있는 정도
- 데이터는 평균값을 중심으로 랜덤하게 표준편차 정도씩 좌우로 퍼져있는 것
- 결론적으로, 두 집단의 평균값의 차이가 표준편차보다 현저히 작으면, 이 차이가 우연히 발생했다라고 결론
- 두 집단의 평균값의 차이가 표준편차보다 현저히 크면, 이 차이가 우연히 발생하지 않았다고 결론
- 결론적으로 t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고 결정하는 통계적 과정
모집단인 경우에는 z-test를 표본(sample)인 경우에는 t-test를 한다.
정규분포의 특징
- 종모양(bell shape)
- 정가운데(평균)을 중심으로 좌우 대칭
- 정규분포의 양 끝은 영원히 '0'에 닿지 않음
정규분포는 평균과 표준편차만으로 규정
- 평균과 표준편차가 다른 무한히 많은 서로 다른 정규분포가 존재
정규분포 아래의 면적은 확률을 의미
- 정규분포 곡선 아래의 모든 면적의 합은 '1'
- 따라서 정규분포를 이용한 확률을 구하려면 적분을 해야함
표준정규분포
- 평균이 '0'이고, 표준편차가 '1'인 정규분포
- 무한히 많은 정규분포 곡선을 적분하는 번거로움을 덜기 위해
z-test
- z-score(z값)을 가지고 하는 테스트
- z-test는 z값과 표준정규분포표를 이용
- z-score(z값)으로 변환하는 것을 z-transformation 또는 표준화(standardization)라고 함
-- z값은 단위로부터 자유롭다(unitless, dimensionless quantity)
양측검정 vs. 단측검정
- 언제 양측검정을 하고, 언제 단측검정을 하는지에 대해서는 정해진 것이 없음
- 결론적으로 양측검정과 단측검정의 차이는 대립가설(Alternative Hypothesis)의 차이에서 발생
- 양측검정은 '0'보다 크거나 작은 두가지를 모두 포함하므로 분포곡선의 양쪽 꼬리 면적의 합이 5.0%에 들어갈만큼 크거나 작아야한다.
- 단측검정은 '0'보다 크다(우측검정)와 '0'보다 작다(좌측검정)의 두가지가 있고 어느 한쪽 꼬리의 면적이 5.0%에 들어갈만큼 크거나 작아야한다.
- '0'을 기준으로 양측검정이든 단측검정이든 95%안에 들어오면 두 편균값의 차이는 우연히 발생한 것이므로 두 집단의 평균값은 통계적으로는 같은 것이다.
t-test를 위한 t-값 & t-분포
- 목적은 두 집단의 평균값이 같은지 다른지 알고자하는 것
- 통계적 가설에 의거하여 두 집단의 평균값의 차이가 '0'과 같은지 다른지 알고자함
- 두 집단의 평균값의 차이가 얼마나 커야 큰 것일까? 비교 대상이 무엇일까? -> 표준편차
- 두 집단의 평균값의 차이가 의미없는 편차인 표준편차보다 못하다면, 이 차이는 우연히 발생했다고 본다.
- 표본의 크기(n)이 커지면 커질수록 t-값은 커지고
- 표본의 크기(n)이 커지면 커질수록 t-분포는 표준정규분포에 근사
- t-test에서 자유도(df)는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고
- 자유도가 커졌다는 의미는 t-분포에 묶여있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미
t-test 예제
- 양측검정을 전제했을 때,
- 표준편차(s)가 7.05cm이고, 표본의 크기(n)가 101명이라면
- t-value = 약 1.996
- df = 100
- critical value(c.v.) = 1.984 이므로
- t-값이 c.v.보다 크므로 두 평균의 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작아지므로,
- 이 차이는 통계적으로 유의하다.
t-test의 종류
- Two-sample t-test
- One-sample t-test
-- 평균 또는 관심있는 숫자와 비교하고싶을 때
- Paired t-test
-- 한개의 샘플인데 시간적으로 다르게 before와 after의 평균값을 구해서 before와 after의 평균이 같은지 다른지 보는 것
One-way ANOVA
- 비교할 집단이 세개 이상인 경우
- t-test를 세번하면 될것 같지만 1종오류의 증가로 불가능
- One-way는 독립변수가 하나라는 뜻
- ANOVA는 Analysis of Variance의 약자
- 한국말로는 분산분석
- 이름이 평균분석이 아니고 왜 분산분석일까?
독립변수(Independent variable)
- 독립된 변수
- 연구자/조사자가 의도적으로 변화시키는 변수
- 결과를 예측하는 변수이기 때문에 결과를 설명하는 변수이기 때문에
- 다른말로 예측변수(predictor variable) 혹은 설명변수(explanatory variable)
- 독립은 논리적 관계에서의 독립을 의미
- 주로 인과관계를 많이 연구/조사하는데,
- 인과관계에서 원인과 결과 중 독립적인 것은 결과보다는 원인일 것
- 그래서 인과관계에서 원인이되는 변수가 독립변수가 된다.
- 독립변수가 연구자/조사자가 의도적으로 변화시킬 수 있다고하여 마음대로 해도 된다는 의미는 아니다.
종속변수(Dependent variable)
- 종속인 변수
- 연구자/조사자가 독립변수의 변화에따라 어떻게 변하는 지 알고싶은 변수
- 다른말로 반응변수(response variable) 혹은 결과변수(outcome variable)
- 종속은 논리적 관계에서의 종속을 의미
- 주로 인과관계를 많이 연구/조사하는데,
- 인과관계에서 원인과 결과 중 종속적인 것은 원인보다는 결과일 것
- 그래서 인과관계에서 결과가되는 변수가 종속변수가 된다.
통제변수(Control variable)
- 긱본적으로 독립변수와 동일
- 연구/조사의 주된 관심사가 아닌 변수
One-way ANOVA에 사용되는 변수
- 종속변수 : 연속형(Continuous)변수만 가능
- 독립변수 : 이산형/범주형(Discrete/Categorical) 변수만 가능
- One-way ANOVA에서 독립변수는 1개다.(독립변수 안의 레벨이 다양한 것)
- One-way ANOVA에서 error는 그룹간의 차이인 τj에 의해 설명되지 않는 오차
-- random한 오차이며 무작위로 발생했으므로 큰 의미는 없다고 가정한다.
-- 하지만 오차가 무작위로 발생하지 않았다면 문제가 있는 것이다.
One-way ANOVA
- F-value(F값)을 구해서 F분포를 확인한다.
F-value(F값)
- F값이란 두개의 분산의 비율이다. (ANOVA를 분산분석이라고 부른다.)
- 두개의 분산으로 평균값이 같은지 다른지 어떻게 알 수 있을까?
- 첫번째 분산 : GM(전체평균)으로부터 각 그룹의 평균까지의 거리의 분산(Between Variance)(df1 = k - 1)
-- 첫번째 분산인 Between Variance가 크다는 것은,
-- 각 그룹의 평균값이 멀리 떨어져있다는 것
-- 따라서, 적어도 한개의 그룹은 다른 그룹과 평균이 다를 수 있다.
-- Between Varaince가 얼마나 커야 통계적으로 큰 것일까?(Between Variance가 우연히 클 가능성은 확률적으로 얼마나 될까?)
-- Between Variance와 비교할 다른 Variance가 필요하다.
- 두번째 분산 : 그룹내의 분산(Within Variance)(df2 = n - k)
-- 두번째 분산인 Within Variance의 의미는,
-- random한, 무의미한 변화의 정도
- Between Variance가 Within Variance보다 충분히 커야 우리는 Between Variance가 통계적으로 크다고 말할 수 있고,
- 이것은 적어도 어느 한 그룹의 평균값이 전체평균과는 다르다고 할 수 있다.
- 결론적으로, 우리의 관심인 분자부분의 분산을 비교대상인 분모부분의 분산과 비교하여 비율로 나타낸 값이 F값이다.
One-way ANOVA의 통계적 가설
- Null Hypothesis : 모든 그룹들의 평균값은 같다.(All means are equal)
- Alternative Hypothesis : 적어도 한 그룹의 평균값은 다르다.(NOT All means are equal)
사후검정의 필요성
- 단순히 One-way ANOVA의 결과만으로는 어떤 그룹이 어떻게 다른지 알 수 없음.
- 따라서 ANOVA에서는 유의하다는 결과가 나오면 사후검정을 해야함.
카이제곱 검정(chi-square test)
- 종속변수와 독립변수가 둘 다 명목척도(Qualitative variable)일 때
- chi-square value(카이 스퀘어 값)과 chi-square 분포가 있다.
- 자료(데이터)의 값은 개수(count)이어야 한다.
- 변수가 한개인 경우 : 변수내 그룹간의 비율(proportion)이 같은지 다른지(변수내 그룹이 단 2개인 경우 Binomial test)
- 변수가 두개인 경우 : 변수 사이의 연관성(Association)이 있는지 없는지
카이제곱 값(chai-square value)
- O는 관찰 빈도(Observed frequency)
- E는 기대 빈도(Expected frequency)
- 관찰 빈도는 자료(데이터)에서 자연적으로 주어지고,
- 기대빈도는 별도의 방법으로 구해야한다.
- 기대 빈도는 개념적으로 이래야한다는 기대 수치와 유사한 개념이다.
일원 카이제곱 검정(One-way chi-square test)
- 일원(One-way)란 변수가 1개라는 의미
- 1개의 변수는 명목척도(Qualitative variable)
- 이 명목척도는 2개 이상의 범주(category)를 가짐
- 통계적 가설
-- Null Hypothesis : 모든 그룹들의 빈도가 같다.(Proportion of all categories are even)
-- Alternative Hypothesis : 적어도 한 그룹의 평균값은 다르다.(Proportion of all categegories are not even)
- 결론적으로 일원 카이제곱 검정의 유의성이 의미하는 것은
- 사전에 정해진 기대빈도와 다르다는 것이다.
- 만약, 기존의 연구나 이론 등에 의해서 각 범주의 빈도가 다르게 나올 수 있다면,
- 기대빈도 자체를 바꿔서 테스트 해야한다.
- 카이제곱 검정을 적합도(goodness of fit)이라고 부르기도한다.
이원 카이제곱 검정(Two-way chi-square test)
- 이원(two-way)란 변수가 2개라는 의미
- 2개의 변수 모두 명목척도(Qualitative variable)
- 각 명목척도는 2개 이상의 범주(category)를 가진다.
- 분할표(contingency table)를 사용한다.
- 목적은 두 변수 사이에 어떠한 연관성(association)이 있는지 확인해보는 것이다.(인과관계가 아니다.)
- 통계적 가설
-- Null Hypothesis : 연관성이 없다.(상호 독립이다.)
-- Alternative Hypothesis : 연관성이 있다.
카이제곱 검정의 한계점 or 전제조건
- 랜덤 샘플링
- 독립성
-- 각 범주가 서로 배타적이어야 한다.
-- 한 대상이 하나 이상의 범주에 들어갈 수 없다.
- 각 셀의 기대빈도가 5 이상이어야 한다.
-- 기대빈도를 5 이상으로 맞추기 위해 경우에 따라 범주를 합쳐야한다.
-- 만약 범주를 합칠 수 없다면, FIsher's exact test(피셔의 정확검정)을 하거나,
-- likelihood ratio test(G-test)를 해야한다.
- 만약 df가 1이라면,
-- 일원 카이제곱 검정의 경우 무조건 연속성 보정을 하는 Yate's correction 또는 chi-square continuity correction을 사용해야 한다.
-- 다만, 이원 카이제곱 검정의 2x2인 경우 : chi-square test 결과와 Yate's correction의 결과가 다를 때에는 Fisher's exact test 사용
Steps in data-driven decision-making
- 1. Formulate a hypothesis
- 2. Find the right test
- 3. Excute the test
- 4. Make a decision
What is a hypothesis?
- A hypothesis is an idea that can be tested