통계: 이 또한 기본이라

통계학의 기본(통계학이란, 표본과 모집단)

why-fier 2023. 12. 26. 15:07

 

통계학을 공부하는 과정에서의 내용을 정리해본다.

 

어떠한 공부던 시작할 때 묻는 ~란?

 

1. 통계학이란?

 

통계학이란? 데이터를 잘 사용하는 방법을 알아내는 학문

여기서, 데이터라고 함은 두 가지로 나눌 수 있다.

바로 지금 가지고 있는 데이터가지고 있지 않은 데이터.

 

 

가지고 있는 데이터는 정리 요약하기 위해 기술 통계 또는 기술통계학을 사용하고

가지고 있지 않은 미지의 데이터를 추측할 목적으로 사용되는 통계학은 추측통계 또는 추측통계학이라고 한다.

 

정리를 하자면,

데이터 가지고 있는 데이터 기술 통계 또는 기술 통계학
가지고 있지 않은 데이터 추측 통계 또는 추측 통계학

 

2. 표본과 모집단

 

표본: 현재 가지고 있는 데이터

모집단: 아직 가지고 있지 않은 모르는 데이터를 포함한 모든 데이터

 

즉, 표본을 이용해서 모집단이라는 전체 데이터를 분석하는 것이 추측통계의 목적이다.

 

Q. 그렇다면 표본은 어떻게 얻을 수 있을까?

 

확률변수: 확률적 법칙에 따라 변화하는 값

예) 어떤 호수에 같은 장비로 낚시를 한다고 할 때, 호수 안에 5마리의 물고기 밖에 없다고 한다.

     2센티: 1마리, 3센티: 1마리, 4센티: 1마리, 5센티: 1마리, 6센티: 1마리 - 총 5마리

     모집단이 5마리임을 이미 알고 있다고 하더라도 내일 낚게 될 물고기는 어떤 물고기가 될지는 모르는 것이다.

     2센티 물고기던 5센티 물고기던 낚일 확률은 20%가 된다.

     내일 낚을 물고기가 무조건 2센티라고 말할 수는 없는 것이다.

     → 20%확률로 2센티짜리 물고기, 20%확률로 3센티짜리 물고기가 낚인다.

         이처럼 확률적으로 변화하는 값이기 때문에 내일 낚일 물고기의 크기는 확률변수라고 할 수 있다.

         표본을 확률변수로 간주하는 것이다.

 

실현값: 확률변수의 구체적인 값

얻지 못한 데이터가 있다는 것을 명확하게 표기하기 위해 실현값이라는 이름을 사용한다.

예) 낚아 올린 물고기가 3센티였을 경우 '3센티'라는 데이터가 실현값이 된다.

      하지만 호수 안에는 2센티, 5센티 물고기도 있다. 다른 물고기가 잡혔을 수도 있는 것이다.

 

샘플링: 모집단에서 표본을 얻는 것 = 표본추출

예) 호수에서 낚은 물고기의 몸길이 데이터를 얻는 것이 샘플링이다.

 

단순 랜덤 샘플링: 모집단에서 하나하나 요소를 무작위로 선택하는 방법

예) 무작위로 물고기 1마리를 낚는 것 - 단순 랜덤 샘플링 또는 랜덤 샘플링이라고 한다.

 

샘플사이즈: 표본의 크기나 가지고 있는 데이터의 수 (크다, 작다로 표현함. 많다, 적다로 표현하진 않음)

예) 물고기 1마리를 낚아 올렸다면 - 샘플 사이즈 1

 

전수조사와 표본조사: 모집단 전체를 조사하는 것 - 전수조사

                                 모집단 일부를 조사하는 것 - 표본조사

                                 (당연히, 전수조사가 어려움... 표본으로 추정하는 것이 대부분임.)

 

출처: 바바 신야, ⌜파이썬으로 배우는 통계학 교과서⌟, 한빛미디어(2020)