[t-test] 5편 : t-test vs. ANOVA, Z-test, 카이제곱검정: 언제 어떤 통계 검정을 써야 할까?
t-test는 두 그룹의 평균 차이를 분석할 때 매우 유용한 통계 기법이에요.
하지만 실제 데이터를 분석하다 보면 두 그룹을 넘어서 세 그룹 이상의 비교가 필요하거나, 범주형 변수 간의 관련성을 알아봐야 하는 경우도 생기죠. 이럴 땐 t-test 외의 다른 통계 방법을 사용하는 것이 더 정확한 해석을 가능하게 해줘요. 이번 글에서는 t-test와 자주 비교되는 ANOVA, Z-test, 그리고 카이제곱 검정의 차이점과 각각의 적절한 사용 시점을 정리해볼게요.
세 그룹 이상 비교가 필요하다면: ANOVA
t-test는 두 집단 간 평균 차이를 비교할 때 적합하지만, 세 집단 이상을 비교하게 되면 오류 가능성이 커져요. 예를 들어 A, B, C 세 집단의 평균 시험 점수를 비교한다고 할 때, t-test를 여러 번 반복하게 되면 통계적 유의미성 검정의 정확도가 떨어질 수 있어요.
이럴 때 사용하는 것이 ANOVA(분산 분석)입니다. ANOVA는 세 집단 이상의 평균을 한 번에 비교할 수 있고, 유의미한 차이가 있다면 사후 검정을 통해 어떤 그룹 간의 차이가 유의한지를 추가로 파악할 수 있죠.
모집단 분산을 알고 있다면: Z-test
t-test와 Z-test는 기본 구조가 비슷하지만, 중요한 차이가 하나 있어요. Z-test는 모집단의 분산을 알고 있을 때 사용하는 검정입니다. 하지만 대부분의 경우 실제 데이터 분석에서는 모집단의 분산을 모르는 경우가 많죠.
이럴 땐 표본에서 분산을 추정해서 사용하는 t-test가 훨씬 일반적으로 사용돼요. 따라서 통계 교과서에서는 Z-test를 이론적으로 먼저 소개하지만, 실제 연구에서는 거의 모든 경우에 t-test가 더 현실적입니다.
연속형이 아닌 범주형 데이터라면: 카이제곱 검정
t-test는 숫자로 측정되는 연속형 변수(예: 키, 체중, 시험 점수)의 평균 차이를 비교하는 데 사용돼요. 반면 카이제곱 검정은 범주형 변수를 분석하는 데 특화돼 있어요.
예를 들어, '흡연 여부'와 '폐암 발생 여부'처럼 예/아니오로 나뉘는 변수들 간의 관련성을 알아볼 때는 t-test가 아니라 카이제곱 검정이 더 적합합니다. 빈도 데이터를 바탕으로 통계적 독립성이나 적합도를 검정할 수 있는 게 이 방법의 장점이에요.
적절한 검정을 선택하는 팁
정리하자면, 비교하려는 그룹의 수, 변수의 유형, 그리고 모집단에 대한 사전 정보 유무가 통계 기법 선택의 핵심 기준입니다. 두 집단의 평균을 비교하고 싶을 땐 t-test를, 세 개 이상의 그룹일 땐 ANOVA를, 모집단 분산을 알고 있다면 Z-test를, 그리고 범주형 변수의 관련성을 분석하고 싶다면 카이제곱 검정을 사용하는 식이죠. 같은 집단의 사전-사후 데이터를 비교할 땐 대응표본 t-test가 적절하고요.
통계 기법을 선택할 때는 무엇보다도 데이터의 특성을 파악하는 것이 가장 중요해요. 수치형 변수인지, 범주형 변수인지, 몇 개의 그룹을 비교할 것인지에 따라 적용 가능한 검정이 완전히 달라지기 때문입니다. 잘못된 통계 검정을 사용하면 데이터 해석이 왜곡될 수 있으므로, 각 기법의 목적과 전제 조건을 이해하는 것이 필수예요.
다음 글에서는 실제 데이터를 이용해 R 또는 Python에서 t-test를 어떻게 수행할 수 있는지, 코드 예제와 함께 실습 중심으로 소개해드릴게요.