본문 바로가기

카테고리 없음

[AI-7] 통계, t-test, One-way ANOVA, chi-square test

통계적 의사결정

- 어떤 사건이 우연히 발생할 확률을 묻는 것으로 시작하는 것

 

통계의 본질

- 분산의 마법

 

자료의 대표값

- 자료의 대표적인 특징

- 평균, 중간값, 최빈값, 표준편차(분산), 구간, 최소값, 최대값...

 

평균의 의미와 특징

- 자료의 중심값으로서 자료의 특성을 대표하는 값

- 모든 자료로부터 영향을 받는다.(아웃라이어에 취약하다.)

- 분산(표준편차)의 계산 등 통계 분석의 대표적인 값으로 사용

 

분산

- 자료(데이터)가 평균값을 중심으로 퍼져있는 평균적인 거리

- 제곱합/자유도 = 제곱합의 평균

 

p-값(p-value, probability value)이란?

- 확률값

- 어떤 사건이 우연히 발생할 확률

- p-값이 0.05보다 작다는 것은 어떤 사건이 우연히 발생할 확률이 5%보다 작다는 의미

- 우연히 발생할 확률이 5%보다 작다는 것은 이 사건이 우연히 일어났을 가능성이 거의 없다고 보는 것

- 즉, 이 사건은 우연히 발생한 것이 아니라 분명히 뭔가 이유(인과관계)가 있다고 추정하는 것

- 기준이 되는 5%는 이정도면 우연은 아닐꺼야라는 수준의 정도

 

통계적 가설

- H0는 영어로 Null Hypothesis의 약자

- Null이란 비어있다, 아무것도 없다는 뜻

- 우리말로 귀무가설

- 무로 돌아가는 가설이라는 의미

- 아무 영향도 없고 아무 일도 없다라는 것을 가정하는 가설

- H1 또는 Ha는 영어로 Alternative Hypothesis의 약자

- 우리말로 대립가설

- 귀무가설을 대체하는 대립하는 가설

- Null Hypothesis는 거의 언제나 = 0

- Alternative Hypothesis는 != 0

- 가설을 먼저 정해놓고 두개의 가설 중 무엇이 맞을지 검정하는 작업을 하도록 설계

- 사건이 우연히 일어났다라고 가정하는 것이 귀무가설

- 사건이 우연히 일어난 것이 아니고 뭔가 이유(인과관계)가 있다라고 가정하는 것이 대립가설

- 귀무가설이 맞다면 우연히 일어난 것으로 추정

- 대립가설이 맞다면 우연히 일어난 것이 아닌 뭔가 이유(인과관계)가 있다고 추정

- p-값이 0.05보다 작다면 대립가설을 선택

- p-값이 0.05보다 크다면 귀무가설을 선택

 

통계적 가설과 검정

    진실
    H0이 참 H0이 거짓
연구결과 H0이 참 문제없음 2종오류(β)
H0이 거짓 1종오류(α) 문제없음

- 1종오류가 더 문제

- 1종오류(α)의 기준이 5%이고 이 5%가 p-값의 기준

- p-값의 확률값은 1종오류의 수준을 5%로 제약한다는 의미로 사용되는 것

- 어떤 사건이 우연히 발생했음에도 우연히 발생하지 않았다고 결론 내릴 오류를 5% 이내로 하겠다는 것

 

변수(Variable)

- 하나의 개념을 대표하는 상징으로서 그것의 특성이 갖는 값이나 강도 또는 크기의 차이를 나타낼 수 있는 것

- 명목변수/척도(Nominal)

-- 각 범주(속성)간 순위가 없다.

-- 범주에 할당된 값은 범주 이름을 대신할 뿐 의미가 없다.

-- 예) 성별/인종/혈액형 등

 

- 순위변수/척도(Ordinal)

-- 각 범주(속성)간 순위가 있다.

-- 범주에 할당된 값은 범주의 이름뿐만 아니라 순위를 나타낸다.

-- 순위 사이에 등간성은 없다.

-- 예) 성적/학력/경제수준/리커르트 척도

 

- 구간변수척도(Interval)

-- 측정된 범주 사이에 등간성이 있다.

-- 할당된 값은 임의 단위로서 비율이나 절대 '0'의 의미가 없다.

-- 따라서 덧셈은 가능하나 곱셈은 안된다.

-- 예) 온도

 

- 비율변수/척도(Ratio)

-- 측정된 범주 사이에 등간성이 있다.

-- 할당된 값은 임의 단위로서 비율과 절대 '0'의 의미가 있다.

-- 덧셈과 곱셈 모두 가능하다.

-- 예) 키/몸무게/나이/시간

 

- 대부분의 경우 이산/범주형변수는 질적변수인 경우가 많고,

- 연속형변수는 양적변수인 경우가 많다.

 

상관관계

- 한 변수와 다른 변수가 공변하는 함수관계

- 양의 상관관계

-- 두 변수가 같은 방향으로 움직인다.

- 음의 상관관계

-- 두 변수가 다른 방향으로 움직인다.

- 상관관계를 나타내는 상관계수는 힘 & 방향 두가지를 의미한다.

- 상관관계는 인과관계가 아니다.

- 두 변수가 서로 관계가 있는지 없는지에 대한 것

 

상관계수

- 상관계수는 -1부터 +1까지만 존재

- 상관계수가 -1일 때, 완벽한 음의 상관관계

- 상관계수가 0일 때, 아무런 관계도 없음

- 상관계수가 +1일 때, 완벽한 양의 상관관계

- 상관계수의 부호는 방향을 의미

- 상관계수의 크기는 힘을 의미

-- 상관계수가 절대값 1에 가까울수록 힘이 세다

-- 힘이 세다는 것은 scatter plot으로 그렸을 때 데이터들이 가깝게 모여있다는 의미

-- 따라서 데이터들이 퍼져있으면 상관계수가 0에 가까워짐

- scatter plot으로 그렸을 때 점들이 이루는 선의 각도가 바뀌어도 상관계수의 변화가 없음

- 각도가 높을 수록 상관관계가 강한 것이 아님

- 직선관계만을 측정할 수 있음

 

t-test

- 모집단의 표준편차가 알려지지 않았을 때, 정규분포의 모집단에서 모은 샘플(표본)의 평균값에 대한 가설검정 방법

 

t-test 목적

- 두개의 집단이 같은지 다른지 비교하기 위해 사용

- 두 집단의 평균값이 통계적으로 같은지 다른지를 확인

- 두 집단의 평균값의 차이가 우연히 발생했을 확률을 확인

 

t-test를 위한 통계적 질문

- 차이가 얼마나 커야 우연히 발생하지 않았다고 판단할 수 있을까?

 

t-test에 대한 보다 깊은 이해

- 차이가 얼마나 큰지 작은지 결정할 비교 대상은 표준변차(분산)

- 표준편차는 데이터에 큰 문제가 없는한 의미 없는 우연히 퍼져있는 정도

- 데이터는 평균값을 중심으로 랜덤하게 표준편차 정도씩 좌우로 퍼져있는 것

- 결론적으로, 두 집단의 평균값의 차이가 표준편차보다 현저히 작으면, 이 차이가 우연히 발생했다라고 결론

- 두 집단의 평균값의 차이가 표준편차보다 현저히 크면, 이 차이가 우연히 발생하지 않았다고 결론

- 결론적으로 t-test는 평균값의 차이와 표준편차의 비율이 얼마나 큰지 혹은 작은지를 보고 결정하는 통계적 과정

 

모집단인 경우에는 z-test를 표본(sample)인 경우에는 t-test를 한다.

 

정규분포의 특징

- 종모양(bell shape)

- 정가운데(평균)을 중심으로 좌우 대칭

- 정규분포의 양 끝은 영원히 '0'에 닿지 않음

 

정규분포는 평균과 표준편차만으로 규정

- 평균과 표준편차가 다른 무한히 많은 서로 다른 정규분포가 존재

 

정규분포 아래의 면적은 확률을 의미

- 정규분포 곡선 아래의 모든 면적의 합은 '1'

- 따라서 정규분포를 이용한 확률을 구하려면 적분을 해야함

 

표준정규분포

- 평균이 '0'이고, 표준편차가 '1'인 정규분포

- 무한히 많은 정규분포 곡선을 적분하는 번거로움을 덜기 위해

 

z-test

- z-score(z값)을 가지고 하는 테스트

- z-test는 z값과 표준정규분포표를 이용

- z-score(z값)으로 변환하는 것을 z-transformation 또는 표준화(standardization)라고 함

-- z값은 단위로부터 자유롭다(unitless, dimensionless quantity)

 

양측검정 vs. 단측검정

- 언제 양측검정을 하고, 언제 단측검정을 하는지에 대해서는 정해진 것이 없음 

- 결론적으로 양측검정과 단측검정의 차이는 대립가설(Alternative Hypothesis)의 차이에서 발생

- 양측검정은 '0'보다 크거나 작은 두가지를 모두 포함하므로 분포곡선의 양쪽 꼬리 면적의 합이 5.0%에 들어갈만큼 크거나 작아야한다.

- 단측검정은 '0'보다 크다(우측검정)와 '0'보다 작다(좌측검정)의 두가지가 있고 어느 한쪽 꼬리의 면적이 5.0%에 들어갈만큼 크거나 작아야한다.

- '0'을 기준으로 양측검정이든 단측검정이든 95%안에 들어오면 두 편균값의 차이는 우연히 발생한 것이므로 두 집단의 평균값은 통계적으로는 같은 것이다.

 

t-test를 위한 t-값 & t-분포

- 목적은 두 집단의 평균값이 같은지 다른지 알고자하는 것

- 통계적 가설에 의거하여 두 집단의 평균값의 차이가 '0'과 같은지 다른지 알고자함

- 두 집단의 평균값의 차이가 얼마나 커야 큰 것일까? 비교 대상이 무엇일까? -> 표준편차

- 두 집단의 평균값의 차이가 의미없는 편차인 표준편차보다 못하다면, 이 차이는 우연히 발생했다고 본다.

- 표본의 크기(n)이 커지면 커질수록 t-값은 커지고

- 표본의 크기(n)이 커지면 커질수록 t-분포는 표준정규분포에 근사

- t-test에서 자유도(df)는 n-1로 계산되므로, 표본의 크기가 커지면 자유도가 커지고

- 자유도가 커졌다는 의미는 t-분포에 묶여있다가 자유롭게 표준정규분포를 사용할 수 있음을 의미

 

t-test 예제

- 양측검정을 전제했을 때,

- 표준편차(s)가 7.05cm이고, 표본의 크기(n)가 101명이라면

- t-value = 약 1.996

- df = 100

- critical value(c.v.) = 1.984 이므로

- t-값이 c.v.보다 크므로 두 평균의 차이인 1.4cm가 우연히 발생했을 확률은 5%보다 작아지므로,

- 이 차이는 통계적으로 유의하다.

 

t-test의 종류

- Two-sample t-test

- One-sample t-test

-- 평균 또는 관심있는 숫자와 비교하고싶을 때

- Paired t-test

-- 한개의 샘플인데 시간적으로 다르게 before와 after의 평균값을 구해서 before와 after의 평균이 같은지 다른지 보는 것

 

One-way ANOVA

- 비교할 집단이 세개 이상인 경우

- t-test를 세번하면 될것 같지만 1종오류의 증가로 불가능

- One-way는 독립변수가 하나라는 뜻

- ANOVA는 Analysis of Variance의 약자

- 한국말로는 분산분석

- 이름이 평균분석이 아니고 왜 분산분석일까?

 

독립변수(Independent variable)

- 독립된 변수

- 연구자/조사자가 의도적으로 변화시키는 변수

- 결과를 예측하는 변수이기 때문에 결과를 설명하는 변수이기 때문에

- 다른말로 예측변수(predictor variable) 혹은 설명변수(explanatory variable)

- 독립은 논리적 관계에서의 독립을 의미

- 주로 인과관계를 많이 연구/조사하는데,

- 인과관계에서 원인과 결과 중 독립적인 것은 결과보다는 원인일 것

- 그래서 인과관계에서 원인이되는 변수가 독립변수가 된다.

- 독립변수가 연구자/조사자가 의도적으로 변화시킬 수 있다고하여 마음대로 해도 된다는 의미는 아니다.

 

종속변수(Dependent variable)

- 종속인 변수

- 연구자/조사자가 독립변수의 변화에따라 어떻게 변하는 지 알고싶은 변수

- 다른말로 반응변수(response variable) 혹은 결과변수(outcome variable)

- 종속은 논리적 관계에서의 종속을 의미

- 주로 인과관계를 많이 연구/조사하는데,

- 인과관계에서 원인과 결과 중 종속적인 것은 원인보다는 결과일 것

- 그래서 인과관계에서 결과가되는 변수가 종속변수가 된다.

 

통제변수(Control variable)

- 긱본적으로 독립변수와 동일

- 연구/조사의 주된 관심사가 아닌 변수

 

One-way ANOVA에 사용되는 변수

- 종속변수 : 연속형(Continuous)변수만 가능

- 독립변수 : 이산형/범주형(Discrete/Categorical) 변수만 가능

- One-way ANOVA에서 독립변수는 1개다.(독립변수 안의 레벨이 다양한 것)

- One-way ANOVA에서 error는 그룹간의 차이인 τj에 의해 설명되지 않는 오차

-- random한 오차이며 무작위로 발생했으므로 큰 의미는 없다고 가정한다.

-- 하지만 오차가 무작위로 발생하지 않았다면 문제가 있는 것이다.

 

One-way ANOVA

- F-value(F값)을 구해서 F분포를 확인한다.

 

F-value(F값)

- F값이란 두개의 분산의 비율이다. (ANOVA를 분산분석이라고 부른다.)

- 두개의 분산으로 평균값이 같은지 다른지 어떻게 알 수 있을까?

- 첫번째 분산 : GM(전체평균)으로부터 각 그룹의 평균까지의 거리의 분산(Between Variance)(df1 = k - 1)
-- 첫번째 분산인 Between Variance가 크다는 것은,

-- 각 그룹의 평균값이 멀리 떨어져있다는 것

-- 따라서, 적어도 한개의 그룹은 다른 그룹과 평균이 다를 수 있다.

-- Between Varaince가 얼마나 커야 통계적으로 큰 것일까?(Between Variance가 우연히 클 가능성은 확률적으로 얼마나 될까?)

-- Between Variance와 비교할 다른 Variance가 필요하다.

- 두번째 분산 : 그룹내의 분산(Within Variance)(df2 = n - k)

-- 두번째 분산인 Within Variance의 의미는,

-- random한, 무의미한 변화의 정도

- Between Variance가 Within Variance보다 충분히 커야 우리는 Between Variance가 통계적으로 크다고 말할 수 있고,

- 이것은 적어도 어느 한 그룹의 평균값이 전체평균과는 다르다고 할 수 있다.

- 결론적으로, 우리의 관심인 분자부분의 분산을 비교대상인 분모부분의 분산과 비교하여 비율로 나타낸 값이 F값이다.

 

One-way ANOVA의 통계적 가설

- Null Hypothesis : 모든 그룹들의 평균값은 같다.(All means are equal)

- Alternative Hypothesis : 적어도 한 그룹의 평균값은 다르다.(NOT All means are equal)

 

사후검정의 필요성

- 단순히 One-way ANOVA의 결과만으로는 어떤 그룹이 어떻게 다른지 알 수 없음.

- 따라서 ANOVA에서는 유의하다는 결과가 나오면 사후검정을 해야함.

 

카이제곱 검정(chi-square test)

- 종속변수와 독립변수가 둘 다 명목척도(Qualitative variable)일 때

- chi-square value(카이 스퀘어 값)과 chi-square 분포가 있다.

- 자료(데이터)의 값은 개수(count)이어야 한다.

- 변수가 한개인 경우 : 변수내 그룹간의 비율(proportion)이 같은지 다른지(변수내 그룹이 단 2개인 경우 Binomial test)

- 변수가 두개인 경우 : 변수 사이의 연관성(Association)이 있는지 없는지

 

카이제곱 값(chai-square value)

- O는 관찰 빈도(Observed frequency)

- E는 기대 빈도(Expected frequency)

- 관찰 빈도는 자료(데이터)에서 자연적으로 주어지고,

- 기대빈도는 별도의 방법으로 구해야한다.

- 기대 빈도는 개념적으로 이래야한다는 기대 수치와 유사한 개념이다.

 

일원 카이제곱 검정(One-way chi-square test)

- 일원(One-way)란 변수가 1개라는 의미

- 1개의 변수는 명목척도(Qualitative variable)

- 이 명목척도는 2개 이상의  범주(category)를 가짐

- 통계적 가설

-- Null Hypothesis : 모든 그룹들의 빈도가 같다.(Proportion of all categories are even)

-- Alternative Hypothesis : 적어도 한 그룹의 평균값은 다르다.(Proportion of all categegories are not even)

- 결론적으로 일원 카이제곱 검정의 유의성이 의미하는 것은

- 사전에 정해진 기대빈도와 다르다는 것이다.

- 만약, 기존의 연구나 이론 등에 의해서 각 범주의 빈도가 다르게 나올 수 있다면,

- 기대빈도 자체를 바꿔서 테스트 해야한다.

- 카이제곱 검정을 적합도(goodness of fit)이라고 부르기도한다.

 

이원 카이제곱 검정(Two-way chi-square test)

- 이원(two-way)란 변수가 2개라는 의미

- 2개의 변수 모두 명목척도(Qualitative variable)

- 각 명목척도는 2개 이상의 범주(category)를 가진다.

- 분할표(contingency table)를 사용한다.

- 목적은 두 변수 사이에 어떠한 연관성(association)이 있는지 확인해보는 것이다.(인과관계가 아니다.)

- 통계적 가설

-- Null Hypothesis : 연관성이 없다.(상호 독립이다.)

-- Alternative Hypothesis : 연관성이 있다.

 

카이제곱 검정의 한계점 or 전제조건

- 랜덤 샘플링

- 독립성

-- 각 범주가 서로 배타적이어야 한다.

-- 한 대상이 하나 이상의 범주에 들어갈 수 없다.

- 각 셀의 기대빈도가 5 이상이어야 한다.

-- 기대빈도를 5 이상으로 맞추기 위해 경우에 따라 범주를 합쳐야한다.

-- 만약 범주를 합칠 수 없다면, FIsher's exact test(피셔의 정확검정)을 하거나,

-- likelihood ratio test(G-test)를 해야한다.

- 만약 df가 1이라면,

-- 일원 카이제곱 검정의 경우 무조건 연속성 보정을 하는 Yate's correction 또는 chi-square continuity correction을 사용해야 한다.

-- 다만, 이원 카이제곱 검정의 2x2인 경우 : chi-square test 결과와 Yate's correction의 결과가 다를 때에는 Fisher's exact test 사용

 

Steps in data-driven decision-making

- 1. Formulate a hypothesis

- 2. Find the right test

- 3. Excute the test

- 4. Make a decision

 

What is a hypothesis?

- A hypothesis is an idea that can be tested