
사회조사방법론을 공부하다 보면 설문지를 만들고, 표본을 추출하고, 조사 설계를 세우는 과정까지는 어느 정도 익숙해집니다. 하지만 막상 수집한 자료를 가지고 마지막 단계인 자료 분석에 들어가면 갑자기 낯선 장벽을 마주하게 됩니다.
특히 SPSS, STATA, R, 파이썬 같은 통계 프로그램 이름이 등장하는 순간 통계학의 영역으로 넘어가 버린 것 같아 막막함을 느끼곤 합니다. 하지만 실제로 양적 자료 분석의 출발점은 복잡한 수학 공식이나 프로그램 코딩이 아닙니다. 진짜 시작은 수집한 원본 데이터를 통계 프로그램이 분석할 수 있도록 정확하게 정리하는 데 있습니다.
이번 글에서는 화려한 통계 기법 이전에 반드시 거쳐야 하는 기초 단계인 코딩, 코드북, 그리고 데이터의 기본적인 특징을 파악하는 기술통계에 대해 알아보겠습니다.
양적 자료 분석이란 무엇인가
양적 자료 분석은 설문지나 관찰을 통해 수집한 결과를 컴퓨터가 이해할 수 있는 숫자의 형태로 변환하고 분석하는 과정입니다. 이를 통해 연구자는 집단의 특성을 요약하거나, 변수들 사이의 관계를 설명하거나, 자신이 세운 가설이 타당한지 객관적으로 검토할 수 있습니다.
일반적으로 SPSS나 R 같은 프로그램을 활용하며, 분석의 목적은 크게 두 가지로 나뉩니다. 첫째는 수집된 자료가 현재 어떤 모습인지 요약해서 보여주는 기술(Description)이고, 둘째는 변수들 사이의 관계나 인과관계를 밝히는 설명(Explanation)입니다. 하지만 목적이 무엇이든 가장 첫 단계는 언제나 수집된 기초 데이터를 통계 프로그램이 인식할 수 있는 형태로 규격화하는 작업입니다.
설문지를 숫자로 변환하는 코딩과 결측값 처리
양적 자료 분석의 가장 기초적인 단계는 코딩(Coding)입니다. 코딩이란 수집된 자료를 일정한 규칙에 따라 정리하고, 각 응답에 1, 2, 3 같은 숫자 값을 부여하는 작업을 말합니다. 예를 들어 성별 문항에서 남자는 0, 여자는 1처럼 숫자로 바꾸어 데이터를 입력하는 식입니다. 여기서 부여된 숫자는 수학적인 크기를 의미하는 것이 아니라, 컴퓨터가 읽고 분류할 수 있도록 일관된 이름표를 붙여주는 역할을 합니다.
이때 가장 주의해야 할 부분이 바로 응답자가 대답을 비워둔 무응답 항목, 즉 결측값(Missing value)입니다. 결측값을 어떻게 처리할지 미리 정해두지 않으면 통계 결과가 크게 왜곡됩니다. 빈칸으로 둘지, 아니면 데이터에 존재할 수 없는 특정한 숫자(예: 9 또는 99)를 입력해 컴퓨터에게 해당 문항이 무응답임을 알려줄지 명확하고 일관된 기준을 세워야 합니다.
연구의 내비게이션 역할을 하는 코드북
수많은 숫자 0과 1로 빼곡하게 채워진 데이터 파일을 시간이 지난 뒤에 열어보면, 0이 남자인지 여자인지 연구자 본인조차 혼동하기 쉽습니다. 그래서 데이터 입력을 마쳤다면 반드시 코드북(Codebook)을 작성해야 합니다.
코드북은 데이터 파일 안에 어떤 변수가 어느 위치에 있고, 각 숫자가 구체적으로 무엇을 의미하는지, 결측값은 어떤 숫자로 처리했는지 정리해 둔 상세한 해설서입니다. 처음에는 번거롭게 느껴질 수 있지만, 코드북을 잘 만들어두면 나중에 데이터 입력 오류를 찾거나 다른 연구자가 내 자료를 분석할 때 혼란을 방지하고 작업 시간을 크게 줄여주는 훌륭한 길잡이가 됩니다.
본격적인 분석 전 데이터의 형태 확인하기 (기술통계)
자료 입력을 마쳤다고 해서 바로 가설을 검증하는 복잡한 분석 도구를 실행해서는 안 됩니다. 가장 먼저 해야 할 일은 기술통계(Descriptive statistics)를 통해 수집된 데이터의 기본적인 형태를 확인하는 과정입니다.
기술통계는 수집된 자료 전체가 어떤 특징을 가지는지 표, 그래프, 수치 등을 통해 요약하고 정리하는 기초 통계 기법입니다. 아직 심층적인 분석 단계는 아니지만, 이 과정을 생략하면 데이터에 섞여 있는 입력 오류나 극단적인 값(이상치)을 놓친 채 완전히 잘못된 결론을 내릴 위험이 큽니다.
변수의 성격에 맞는 분석 방법 찾기 (측정 수준)
기술통계를 정확하게 적용하려면 변수가 어떤 특성을 가지고 있는지, 즉 측정 수준(Measurement level)을 정확히 파악해야 합니다. 측정 수준은 크게 네 가지로 나뉩니다.
- 명목변수: 남자와 여자, 지역처럼 크기나 순서가 없고 단순히 종류만 분류하는 변수입니다.
- 서열변수: 대학교 1학년, 2학년처럼 순서는 있지만 그 간격이 일정하지 않은 변수입니다.
- 등간/비율변수: 온도, 나이, 소득처럼 순서뿐만 아니라 간격도 일정하며, 비율변수의 경우 완벽한 수학적 계산이 가능한 성격을 가집니다.
내가 다루는 숫자가 단순히 분류를 위한 숫자인지, 아니면 실제 계산이 가능한 숫자인지에 따라 사용할 수 있는 그래프의 종류와 통계 기법이 완전히 달라집니다.
기술통계에서 반드시 확인해야 할 두 가지 지표
기술통계에서는 복잡한 수식보다 데이터의 전반적인 형태를 보여주는 두 가지 핵심 지표를 확인하는 것이 중요합니다. 첫째는 자료가 대체로 어느 지점에 몰려 있는지를 보여주는 중심경향(평균, 중앙값, 최빈값)입니다. 둘째는 자료가 평균을 중심으로 얼마나 흩어져 있는지를 보여주는 분산도(범위, 표준편차)입니다.
아무리 평균 소득이 300만 원으로 동일한 두 지역이라도, 한 지역은 모두가 300만 원씩 고르게 벌고 다른 지역은 소득이 전혀 없는 사람과 600만 원을 버는 사람으로 양극화되어 있을 수 있습니다. 따라서 데이터를 분석할 때는 평균값에만 의존하지 말고 데이터가 흩어진 정도인 분산도를 반드시 함께 확인해야 현실을 정확하게 파악할 수 있습니다.
🏃♂️ 일상 속 비유: 스마트워치 운동 기록으로 이해하는 코딩과 기술통계 지표
양적 데이터 분석의 기초 절차와 통계 지표의 원리는 우리가 매일 스마트워치(가민, 애플워치 등)에 축적하는 '한 달간의 러닝 트레이닝 데이터 로그'를 정리하고 정돈하는 과정과 완벽하게 일치합니다.
이처럼 평균이라는 하나의 중심경향 수치에만 매몰되면 데이터 원석이 가진 진짜 입체적인 패턴을 놓치게 됩니다. 양적 분석을 시작할 때 코딩을 거친 후 반드시 분산도와 표준편차를 결합한 기술통계를 먼저 꼼꼼히 훑어야 하는 실무적 이유가 바로 여기에 있습니다.
- 데이터 코딩과 코드북: 한 달 동안 달린 기록들을 엑셀에 입력할 때, 러닝 코스 종류를 '트랙 주행 = 1, 로드(도심) 주행 = 2, 산악 트레일런 = 3'과 같이 숫자로 바꾸는 과정이 바로 코딩입니다. 그리고 수개월 뒤 1번이 트랙이었는지 로드였는지 헷갈리지 않도록 엑셀 첫 시트에 '1 = 트랙, 2 = 로드'라고 이름표 요약 가이드를 적어두는 서식이 곧 코드북이 됩니다. 이때 비가 와서 달리기를 아예 쉬어버린 날의 칸을 '무응답 결측치(99)'로 처리하는 규칙도 포함됩니다.
- 중심경향과 분산도의 진짜 의미: 두 명의 러너(A와 B)가 한 달 동안 달린 페이스 데이터를 분석해 보니 두 사람 모두 '평균 페이스 5분 00초(중심경향)'로 똑같이 도출되었습니다. 평균만 보면 두 사람의 기량이 완전히 같아 보입니다.
하지만 데이터가 퍼진 정도인 분산도(표준편차)를 열어보니 반전이 일어납니다. 러너 A는 한 달 내내 매일같이 기복 없이 정확히 5분 00초 페이스로만 달렸습니다(분산도 매우 낮음). 반면 러너 B는 어떤 날은 전력 질주 인터벌로 3분 30초로 달리고, 회복주 데이에는 6분 30초로 느긋하게 달렸습니다(분산도 매우 높음).
마무리: 데이터라는 원석을 깎아내는 기본기
양적 자료 분석은 결코 처음부터 복잡한 가설 검정으로 시작되지 않습니다. 전체 분석의 완성도를 좌우하는 가장 중요한 작업은 수집된 원본 데이터를 정교하게 코딩하고, 기술통계를 통해 데이터의 전체 모습을 꼼꼼하게 파악하는 기초 단계에 있습니다.
하지만 학교에서 배우는 이론만으로는 실제 데이터의 생김새를 상상하기가 쉽지 않습니다. 강의실에서는 평균, 중앙값, 최빈값 같은 개념을 배우지만, 막상 현장에서는 "복수 응답 문항은 엑셀에 어떻게 한 칸씩 채야 할까?", "1순위, 2순위 응답은 변수를 몇 개 만들어야 하지?", "주관식 답변은 어떻게 숫자로 변환할까?" 같은 아주 구체적인 벽에 부딪히게 됩니다.
이 막막함을 뚫어낼 가장 좋은 방법은 지금 당장 공공기관(통계청 자료실, 국가통계포털 등)에서 제공하는 Rawdata와 코드북을 직접 다운로드해 살펴보는 것입니다. 실제 데이터가 0과 1, 혹은 수많은 숫자 더미 속에서 어떻게 규칙을 가지고 나열되어 있는지 눈으로 확인하는 순간, 수십 페이지의 이론서보다 훨씬 강력한 실전 감각을 얻게 될 것입니다.
통계 프로그램의 단추를 누르기 전, 데이터라는 원석이 어떻게 깎여 코드북이라는 설계도 안에 담겨 있는지 탐구해 보십시오. 기초가 튼튼한 데이터가 결국 가장 설득력 있는 분석 결과를 만들어낸다는 사실을 잊지 마시길 바랍니다.
[사회조사방법론 #23] 양적 자료 분석과 t검정, ANOVA, 상관분석, 회귀분석까지
앞선 글에서는 양적 자료 분석의 가장 기초 단계인 코딩과 기술통계를 정리했습니다. 데이터의 전반적인 형태를 파악했다면, 이제부터는 본격적으로 "그래서 두 집단 사이에 의미 있는 차이가
changmin-run0929.tistory.com
[사회조사방법론 #21] 평가연구의 현실적 쟁점: 사회적 맥락, 사회지표, 윤리
앞선 글에서는 복지 정책이나 교육 프로그램이 "진짜 돈값을 했는지" 따져보는 평가연구의 개념과 설계 방식을 정리했습니다. 교과서에서 배우는 연구 설계 도면은 아주 깔끔하고 완벽해 보입
changmin-run0929.tistory.com
'사회과학 > 사회조사방법론' 카테고리의 다른 글
| [사회조사방법론 #23] 양적 자료 분석과 가설 검정: t검정, ANOVA, 회귀분석 완벽 정리 (0) | 2026.04.01 |
|---|---|
| [사회조사방법론 #21] 평가연구의 현실적 쟁점: 통계 마사지의 압박과 연구 윤리 (0) | 2026.03.30 |
| [사회조사방법론 #20] 평가연구란 무엇인가? 정책의 진짜 효과를 검증하는 유사실험설계 (0) | 2026.03.29 |
| [사회조사방법론 #19] 비개입적 측정: 질문 없이 세상의 기록으로 진짜 사실을 읽는 법 (0) | 2026.03.29 |
| [사회조사방법론 #18] 질적 현장연구란? 숫자 너머의 맥락을 읽는 질적 연구 방법론 (0) | 2026.03.29 |