통계학의 기본(표본을 얻는 과정의 추상화 - 확률)
확률 - 어떤 데이터를 얻을 수 있는 확률은 P로 표기한다.
probability - P라고 표기
확률분포: 확률변수와 그 값이 나올 수 있는 확률을 대응시켜 표시하는 것. 분포라고 하기도 함.
앞서 썼던 예시를 이어서 써보면,
어떤 호수에 5마리의 물고기가 있다고 가정해본다.
물고기의 각 길이는 반올림을 해서 2센티, 3센티, 4센티, 5센티, 6센티이다.
그러므로 호수에 물고기를 잡을 수 있는 물고기의 몸길이에 대한 확률분포는 아래와 같다.
P(1.5≤몸길이<2.5) = 1/5
P(2.5≤몸길이<3.5) = 1/5
P(3.5≤몸길이<4.5) = 1/5
P(4.5≤몸길이<5.5) = 1/5
P(5.5≤몸길이<6.5) = 1/5
어떤 데이터가 어떤 확률분포에 대응할 때 '확률분포를 따른다'라고 표현한다.
→ 낚은 물고기의 몸길이는 {1/5, 1/5, 1/5, 1/5, 1/5}라는 확률분포를 따른다.
모집단분포: 모집단이 따르는 확률분포
항아리모델: 항아리에서 공을 꺼내는 행동으로 여러 가지 현상을 표현하는 모델
예) 5개의 물고기 밖에 없는 호수에서의 낚시는 5개의 공이 들어있는 항아리에서 랜덤으로 1개를 꺼내는 항아리 모델로 표현할 수 있다.
<정리>
호수 안에 있는 모든 물고기: 모집단
낚아 올린 물고기: 표본
모집단에 샘플링하여 3센티짜리 물고기라는 표본을 얻었다. - 단순 샘플링
모집단분포를 따르는 확률변수로 3센티짜리 물고기라는 데이터를 실현값으로 획득했다.
출처: 바바 신야, ⌜파이썬으로 배우는 통계학 교과서⌟, 한빛미디어(2020)