본문 바로가기

사회과학/사회조사방법론

[사회조사방법론 #23] 양적 자료 분석과 가설 검정: t검정, ANOVA, 회귀분석 완벽 정리

반응형

앞선 글에서는 양적 자료 분석의 가장 기초 단계인 코딩과 기술통계를 정리했습니다. 데이터의 전반적인 형태를 파악했다면, 이제부터는 본격적으로 "그래서 두 집단 사이에 의미 있는 차이가 있는가?", "이 정책이 정말로 변수를 변화시키는 효과가 있었는가?"를 과학적으로 검증하는 단계로 넘어갈 차례입니다.
통계학이나 사회조사방법론을 공부할 때 학생들을 가장 곤란하게 만드는 것이 바로 쏟아지는 분석 기법들의 이름입니다. 하지만 원리는 생각보다 명확합니다. 통계 분석의 핵심은 '내 변수의 성격과 형태에 따라 어떤 기법을 선택해야 하는지'를 정확히 구분하는 것에 있습니다. 사회조사방법론 시리즈의 마지막인 이번 글에서는 대학교 과제나 학위 논문에서 가장 흔하게 마주치게 될 핵심 통계 기법인 t검정, 분산분석, 상관분석, 회귀분석을 아주 쉽고 직관적인 흐름으로 정리해 보겠습니다.

본격적인 분석 전, 변수의 궁합부터 맞춰라

수많은 통계 기법 중에서 무엇을 고를지 고민하기 전에 가장 먼저 확인해야 할 일은, 내가 설정한 독립변수(원인)와 종속변수(결과)가 어떤 형태의 데이터인지 파악하는 것입니다. 분석 기법은 결국 이 두 변수의 조합에 따라 기계적으로 결정됩니다.

  • 독립변수가 '집단(명목)'이고, 종속변수가 '점수(양적)'일 때: 두 집단을 비교하면 t검정, 세 집단 이상을 비교하면 분산분석(ANOVA)을 씁니다.
  • 독립변수도 '점수(양적)'이고, 종속변수도 '점수(양적)'일 때: 두 점수가 같이 움직이는지 보려면 상관분석, 한 점수가 다른 점수에 원인이 되는지 보려면 회귀분석을 씁니다.
  • 독립변수가 '점수(양적)'인데, 종속변수가 '합격/불합격(명목)'일 때: 로지스틱 회귀분석을 씁니다.

즉, 통계 기법은 임의로 선택하는 것이 아니라 내 자료의 형태와 구조에 맞게 논리적으로 선택해야 하는 분석 도구입니다.

t검정 (t-test): 두 집단의 자존심 대결

학술 연구에서 가장 기초적이고 흔하게 쓰이는 가설 검정 방법이 바로 t검정입니다. t검정은 쉽게 말해 '두 집단의 평균이 통계적으로 유의미한 차이가 있는가'를 객관적으로 확인하는 방법입니다. 남성과 여성의 평균 임금 차이, 정책 수혜 집단และ 비수혜 집단의 만족도 차이처럼 비교 대상이 정확히 두 개로 나뉠 때 주로 사용합니다.
여기서 주의할 점은, A 집단 평균이 50점이고 B 집단 평균이 55점이라고 해서 무조건 차이가 있다고 결론 내리지 않는다는 것입니다. 그 5점의 차이가 표본 추출 과정에서 우연히 발생한 오차인지, 아니면 전체 모집단에서도 적용될 만큼 의미 있는 진짜 차이인지를 수학적으로 검증하는 것이 t검정의 핵심입니다. 이때 통계 결과에서 제공하는 p값(유의확률)이 0.05보다 작게 나오면 "이 차이는 우연이라고 보기 힘들며, 통계적으로 유의미한 차이가 있다"라고 결론 내립니다.

분산분석 (ANOVA): 세 집단 이상이 싸울 때

비교해야 할 집단이 두 개가 아니라, 20대, 30대, 40대처럼 세 집단 이상으로 늘어나면 어떻게 해야 할까요? 이때는 t검정 대신 분산분석(ANOVA)이라는 기법을 활용해야 합니다. 소득 계층별 건강 수준 차이, 거주 지역별 정책 지지도 차이 등을 한 번에 검토할 때 사용합니다.
분산분석을 실행하여 p값이 0.05보다 작게 나오면 "적어도 이 세 집단 중 어느 한 곳 이상에서는 확실한 평균 차이가 존재한다"라는 결론을 얻게 됩니다. 하지만 분산분석은 단지 전체적인 집단 간 차이의 유무만 알려줄 뿐, 구체적으로 20대와 40대가 다른지, 30대와 40대가 다른지 그 세부적인 내막까지는 확인해 주지 않습니다. 그래서 분석 결과가 유의미하게 나오면 반드시 사후검정(Post hoc test)이라는 추가 분석을 진행하여 어느 집단 사이에서 구체적인 차이가 발생하는지 정확히 확인해야 합니다.

상관분석: 두 양적 변수가 함께 춤을 추는가

성별이나 지역 같은 집단 구분이 아니라, 공부 시간과 시험 성적처럼 두 변수가 모두 크기를 가진 수치 데이터일 때 가장 먼저 시도해 볼 수 있는 것이 상관분석(Correlation analysis)입니다. 상관분석은 두 변수 사이에 함께 증가하거나 감소하는 일정한 패턴이 있는지 확인하며, 대표적으로 '피어슨 상관계수'를 사용합니다.
하지만 상관분석 결과를 해석할 때 연구자들이 가장 조심해야 하는 대원칙이 있습니다. 바로 두 변수 간의 상관관계가 높다고 해서 무조건 원인과 결과, 즉 인과관계가 성립하는 것은 아니라는 점입니다. 여름철 아이스크림 판매량과 익사 사고 발생률은 함께 올라가는 강한 상관관계를 보이지만, 아이스크림 판매가 사고의 원인은 아닙니다. 두 변수 모두 '더운 날씨'라는 제3의 변수에 영향을 받았을 뿐입니다. 즉, 상관분석은 두 변수가 얼마나 밀접하게 연관되어 있는지만 보여줄 뿐, 어느 변수가 원인이고 결과인지를 직접적으로 증명해 주지는 않습니다.

회귀분석: 원인과 결과를 따지는 통계의 꽃

사회조사방법론과 양적 연구 논문에서 가장 중요하게 다뤄지는 본론이자 핵심 기법이 바로 회귀분석(Regression analysis)입니다. 회귀분석은 단순히 두 변수가 관련이 있는지를 넘어서, "특정 원인 변수가 변할 때 결과 변수는 구체적으로 얼마나 달라지는가?"를 수학적인 방정식으로 추정하고 예측하는 강력한 도구입니다.

  • 단순회귀분석: 독립변수가 딱 하나일 때 씁니다. 예를 들어 "공부 시간이 1시간 늘어날 때마다 성적은 5점씩 오른다"라는 직선의 방정식을 만들어냅니다.
  • 다중회귀분석: 현실 사회의 복잡한 현상은 변수 하나만으로 온전히 설명되지 않습니다. 개인의 건강 상태를 설명하려면 운동 시간뿐만 아니라 식습관, 소득, 스트레스 지수 등 다양한 요인이 복합적으로 필요합니다. 다중회귀분석은 이 수많은 원인 변수를 한 번에 통계 모델에 적용하여, "다른 조건들이 모두 동일하다고 가정할 때, 순수하게 '운동 시간'만이 건강에 미치는 독립적인 영향력은 얼마인가?"를 파악하는 아주 정교한 분석입니다. 실제 사회과학 논문의 상당수가 이 다중회귀분석을 핵심 방법론으로 활용합니다.
🏃‍♂️ 일상 속 비유: 러닝 크루 데이터를 통해 한눈에 정돈하는 통계 사대천왕
양적 데이터 분석의 핵심 가설 검정 기법들을 우리가 가입한 '러닝 크루원들의 누적 운동 일지'를 가지고 실무 분석을 진행하는 상황에 1:1로 매칭해 보면 아주 선명하게 이해됩니다.

  • t검정 (두 집단 평균 비교): "최고급 탄소섬유 카본화(독립변수: 집단)"를 신은 러너 그룹과 "일반 러닝화"를 신은 러너 그룹의 5km 평균 기록(종속변수: 점수)을 비교하는 것입니다. 도출된 30초의 기록 차이가 우연의 오차인지, 신발 성능에 따른 진짜 유의미한 격차(p < 0.05)인지 팩트 체크합니다.
  • 분산분석 (ANOVA / 세 집단 이상 비교): 이번엔 집단을 쪼개어 "20대 크루원, 30대 크루원, 40대 크루원(독립변수: 3집단)"에 따른 월간 평균 주행 거리(종속변수: 점수)의 차이를 검증합니다. 통계 수치상 세대별 차이가 존재한다고 뜨면, 사후검정(Post hoc)을 돌려 구체적으로 20대와 40대 사이에서 격차가 벌어진 것인지 명학한 내막을 발라냅니다.
  • 상관분석 (두 연속형 변수의 동행): "한 달 동안 소화한 누적 마일리지(수치 데이터)"와 "안정 시 심박수(수치 데이터)"의 관계를 살핍니다. 마일리지가 늘어날수록 심박수가 뚝뚝 떨어지는 강한 음(-)의 상관관계 패턴이 관찰되지만, 심박수 감소의 유일한 원인이 마일리지라고 섣불리 단정 짓지는 않으며, 두 숫자가 얼마나 긴밀하게 연동되어 춤을 추는지만 확인합니다.
  • 회귀분석 (인과 관계 방정식과 예측): 단순히 춤추는 것을 넘어 확실한 원인과 결과를 방정식으로 유도합니다. "주간 훈련 거리가 10km씩 늘어날 때마다(독립변수), 풀코스 마라톤 완주 시간은 구체적으로 몇 분 몇 초나 단축될까?(종속변수)"의 인과 관계 모델을 도출합니다. 나아가 나이, 수면 시간, 영양 섭취량 등 방해 변수들을 한꺼번에 통제 모델에 집어넣어 순수한 훈련만의 파급력을 추정하는 기술이 통계의 꽃인 다중회귀분석입니다.

마무리: 숫자의 언어로 세상을 번역해내는 기본기의 힘

사회조사방법론이라는 긴 학문적 여정의 마지막 주제까지 도달하셨습니다. 양적 자료 분석은 겉보기엔 현란한 수학 공식과 복잡한 통계 프로그램 때문에 진입 장벽이 높아 보이지만, 그 본질은 결국 "연구자가 세운 논리적인 가설을 객관적인 숫자의 언어로 번역해서 학술적으로 증명해 내는 과정"입니다.
사회조사방법론은 학부생부터 대학원생까지 모두가 거쳐 가는 필수 과목입니다. 그만큼 중요도가 높지만, 기초가 탄탄하지 않으면 금세 길을 잃기 쉬운 분야이기도 합니다. 사회를 더 정확히 분석하려는 수많은 연구자의 노력으로 지금 이 순간에도 새로운 분석 기법과 정교한 정책 평가 도구들이 쏟아져 나오고 있습니다. 하지만 아무리 화려하고 새로운 지식일지라도 그 근간은 결국 우리가 함께 다룬 '기본'에서 뻗어 나간 가지들입니다.
내가 분석하고자 하는 변수가 무엇인지 정확히 알고, 그에 맞는 도구를 논리적으로 선택할 수 있는 기본기를 갖춘다면, 앞으로 마주할 그 어떤 복잡한 연구 방법론도 두렵지 않을 것입니다. 훌륭한 분석은 어려운 기법을 나열하는 것이 아니라, 탄탄한 기초 위에서 세상을 가장 명료하게 설명해 내는 일입니다. 그동안 이 시리즈를 통해 사회를 과학적으로 읽어내는 든든한 기초 체력을 다지셨기를 바랍니다. 여러분이 던진 질문이 세상을 더 선명하게 밝히는 데이터로 꽃피우길 응원합니다.
 
[이전 글 보기]

 

[사회조사방법론 #22] 양적 자료 분석과 기술통계

사회조사방법론을 공부하다 보면 설문지를 만들고, 표본을 추출하고, 조사 설계를 세우는 과정까지는 어느 정도 익숙해집니다. 하지만 막상 수집한 자료를 가지고 마지막 단계인 자료 분석에

changmin-run0929.tistory.com

 

반응형

소개 및 문의 · 개인정보 처리 방침 · 면책조항

© 사회과학 주변인 렘군

< /div>