본문 바로가기
R 실전 고급/예제1

[R 데이터분석 실전] 여러 독립변수와 종속변수가 있는 데이터 분석 (1) 개요

by 만다린망고 2020. 8. 27.
반응형

[R 데이터분석 실전] 여러 독립변수와 종속변수가 있는 데이터 분석 (1) 개요


통계분석을 자주 하다보니 자주 사용되는 데이터 패턴이 있었습니다. 매번 R 코드를 새로 짜는 것이 번거로워서 자주 사용되는 데이터 패턴을 분석하는 하나의 패키지(?)를 만들어 보려고 합니다. 


제가 주로 다루는 데이터는 아래와 같은 형태입니다. 



예를 들면 아래와 같습니다. 



위와 같은 형식의 데이터를 분석하는 R 코딩에 대한 이야기를 할건데요. 아래와 같이 독립변수를 채워넣었습니다. 



종속변수는 숫자인데 굳이 넣지는 않겠습니다. 성별에서 F는 여자, M은 남자입니다. 직업에서 T는 교사, D는 의사, P는 교수입니다. 


그룹을 나누고 그룹 간의 차이를 비교한다고 할 때, 나눌 수 있는 그룹의 개수가 몇개일까요? 먼저 이것을 계산해보도록 합시다. 한가지 예를 들면 아래와 같은 비교가 가능합니다. 


"남녀 연봉 비교"


그룹을 나눈 기준이 되는 독립변수는 성별이고, 비교 대상이 되는 종속변수는 연봉입니다. 이렇게 독립변수와 종속변수에 따라 가능한 비교를 추릴 수 있습니다.


1) 성별 - 연봉

2) 성별 - 키

3) 성별 - 몸무게

4) 직업 - 연봉

5) 직업 - 키

6) 직업 - 몸무게


여기서 끝이 아닙니다. 이런 비교도 가능합니다.


"남자 직업별 연봉 비교"


먼저 성별이라는 독립변수의 한 부분집합으로 한정되고, 이 부분집합 내에서 다른 독립변수인 직업이 그룹을 나누는 기준이 됩니다. 가능한 비교는 아래와 같습니다. 


1) 남자 - 직업 - 연봉

2) 남자 - 직업 - 키

3) 남자 - 직업 - 몸무게

4) 여자 - 직업 - 연봉

5) 여자 - 직업 - 키

6) 여자 - 직업 - 몸무게


한경우가 더 있습니다. 이런 비교도 가능합니다. 


"의사인 남녀 연봉비교"


먼저 직업이라는 독립변수의 한 부분집합으로 한정되고, 이 부분집합 내에서 다른 독립변수인 성별이 그룹을 나누는 기준이 됩니다. 가능한 비교는 아래와 같습니다. 


1) 교사 - 성별 - 연봉

2) 교사 - 성별 - 키

3) 교사 - 성별 - 몸무게

4) 의사 - 성별 - 연봉

5) 의사 - 성별 - 키

6) 의사 - 성별 - 몸무게

7) 교수 - 성별 - 연봉

8) 교수 - 성별 - 키

9) 교수 - 성별 - 몸무게


6+6+9이므로, 총 21가지의 비교가 가능합니다. 어떻게 계산되었는지 알아봅시다. 위 케이스들은 크게 세가지 타입으로 분류됩니다. 


Type1: 독립변수 하나와 종속변수 = (독립변수의 수)*(종속변수의 수) = 2*3 =6 

Type2: 독립변수 1의 부분집합 안에서의 독립변수2와 종속변수 =(독립변수1의 수준)*(종속변수의 수) = 2*3=6

Type3: 독립변수 2의 부분집합 안에서의 독립변수1과 종속변수 =(독립변수2의 수준)*(종속변수의 수) = 3*3=9


이제 데이터분석을 해봅시다. 아래 순서로 분석할 것입니다. 


(2) 데이터 불러오기

(3) 독립변수의 분석

(4) Type1: 2수준 독립변수 하나와 종속변수.

(5) Type2: 3수준 이상 독립변수 하나와 종속변수.

(6) Type3: 독립변수 1의 부분집합 안에서의 독립변수2와 종속변수

(7) Type3: 독립변수 2의 부분집합 안에서의 독립변수1과 종속변수

반응형

댓글