통계: 이 또한 기본이라

통계학의 기본(표본을 얻는 과정의 추상화 - 확률)

why-fier 2023. 12. 26. 15:34

 

확률 - 어떤 데이터를 얻을 수 있는 확률은 P로 표기한다.

probability - P라고 표기

 

확률분포: 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것. 분포라고 하기도 함.

 

앞서 썼던 예시를 이어서 써보면,

어떤 호수에 5마리의 물고기가 있다고 가정해본다.

물고기의 각 길이는 반올림을 해서 2센티, 3센티, 4센티, 5센티, 6센티이다.

그러므로 호수에 물고기를 잡을 수 있는 물고기의 몸길이에 대한 확률분포는 아래와 같다.

 

P(1.5≤몸길이<2.5) = 1/5

P(2.5≤몸길이<3.5) = 1/5

P(3.5≤몸길이<4.5) = 1/5

P(4.5≤몸길이<5.5) = 1/5

P(5.5≤몸길이<6.5) = 1/5

 

어떤 데이터가 어떤 확률분포에 대응할 때 '확률분포를 따른다'라고 표현한다.

 

→ 낚은 물고기의 몸길이는 {1/5, 1/5, 1/5, 1/5, 1/5}라는 확률분포를 따른다.

 

모집단분포: 모집단이 따르는 확률분포

 

항아리모델: 항아리에서 공을 꺼내는 행동으로 여러 가지 현상을 표현하는 모델

예) 5개의 물고기 밖에 없는 호수에서의 낚시는 5개의 공이 들어있는 항아리에서 랜덤으로 1개를 꺼내는 항아리 모델로 표현할 수 있다.

 

<정리>

호수 안에 있는 모든 물고기: 모집단

낚아 올린 물고기: 표본

 

모집단에 샘플링하여 3센티짜리 물고기라는 표본을 얻었다. - 단순 샘플링

모집단분포를 따르는 확률변수로 3센티짜리 물고기라는 데이터를 실현값으로 획득했다.

 

 

출처: 바바 신야, ⌜파이썬으로 배우는 통계학 교과서⌟, 한빛미디어(2020)