본문 바로가기
파이썬/통계분석

[파이썬 강의] 2. 자료형과 자료구조 큰그림 그리기

by 만다린망고 2021. 9. 27.
반응형

 

 

자료형과 자료구조의 큰그림을 그리는 강의입니다. 자세한 설명은 이어지는 강의에서 할 예정이고 본 강의는 얕고 넓게 조망하는 강의입니다. 

 

파이썬을 이용하여 통계분석을 하는 것이 우리의 궁극적인 목적인데요. 파이썬이 통계분석을 하게 하려면 자료를 파이썬에 입력해야합니다.

 

자료형

파이썬에 입력할 수 있는 자료의 형태는 크게 세가지가 있습니다. 자료의 형태는 줄여서 자료형이라고 부릅니다. 

 

- 숫자형

- 문자열

- 논리형

 

위 세가지가 기본 자료형인데, 이건 컴퓨터 프로그램을 불문하고 다 비슷합니다. 숫자형은 정수,실수,복소수로 나눠집니다. 문자열은 문자들의 나열입니다. 문자를 입력하는 방식입니다. 마지막은 논리형인데요. 숫자형과 문자열은 우리가 현실에서도 쓰는 반면 논리형은 생소한 분들도 계실겁니다. 논리형은 TRUE 혹은 FALSE 라는 두가지 값만 갖는 자료형입니다. 조건문에서도 사용되고, 두 변수가 같은지 다른지 비교할 때도 사용됩니다. 자세한 설명은 이어지는 영상에서 하겠습니다.

 

이 자료를 어떻게 입력하면 좋을까요? 일렬로 나열하여 입력하면 될까요? 그때그때 다를겁니다. 일렬로 나열하는게 좋은 데이터도 있고, 행렬 형태가 좋을 수도 있고, 표 형태가 좋을 수도 있습니다. 이렇게 자료를 효과적으로 관리하는 '틀'을 자료구조라고 합니다. 

 

 

자료구조

파이썬에서 기본적으로 제공하는 자료구조는 리스트, 튜플, 딕셔너리, 집합이 있습니다. 또 사람들이 파이썬을 더 편하게 쓰기위해 만들어낸 자료구조로 Array, Series, DataFrame 이 있습니다.

 

- 리스트

- 튜플

- 딕셔너리

- 집합

- Array (넘파이 패키지)

- Series (판다스 패키지)

- DataFrame (판다스 패키지)

 

리스트는 자료를 나열해 놓은 것입니다. 튜플은 리스트와 동일한데 원소 수정이 불가능합니다. 딕셔너리는 이름과 값을 매칭하여 입력합니다. (홍길동 : 변호사) 이런 식입니다. 집합은 원소 중복이 불가능하고, 원소들의 순서가 없어서 인덱싱이 불가능합니다. 합집합,교집합 등의 집합연산이 가능합니다. 

 

Array는 Numpy라는 패키지를 설치해야 사용할 수 있는 자료구조입니다. 수학에서 벡터,행렬,배열 이라고 생각하시면 됩니다. 따라서 수학적 연산이 가능합니다. 문자도 입력이 가능한데 문자를 입력할 경우 수학연산은 불가능합니다. 숫자와 문자를 동시에 입력할 경우 전부 문자로 인식됩니다. 

 

Series는 Pandas 라는 패키지를 설치해야 사용이 가능합니다. Series는 엑셀의 한 열과 비슷합니다. 입력하고 싶은걸 입력할 수 있습니다. 엑셀과 다른 점은 행과 열의 이름을 마음대로 입력할 수 있다는 것입니다. 엑셀은 열이름은 문자, 행이름은 숫자죠. DataFrame은 엑셀의 여러열이라고 생각하시면 됩니다. 자세한 설명은 이어지는 영상에서 하겠습니다. 

반응형

댓글