메타코드 통계 기초의 모든 것 4강(2)

May 21, 2024 1 분 소요

해당 강의는 메타코드 기업에서 후원을 받아 수강한 뒤 해당 강의에 대해 수강한 뒤 제가 공부하여 정리하여 여러분들에게 제공해드리는 것 입니다.

이번에는 정규분포(가우스분포)를 다루어 보도록 하겠습니다.

가장 유명하면서 가장 많이 사용하는 분포이기에 꼭 자세히 보시길 바라겠습니다.

정규분포

먼저 정의부터 보도록 하겠습니다.

정규분포는 연속확률분포 중에서 가장 널리사용하며, 표본을 통한 통게적 추정 및 가설검정이론의 기본입니다.

그리고 보통 데이터를 받았을 때 대부분 정규 분포입니다. 그렇기에 이 데이터의 분포가 어떤 분포인지 잘 모른다면 정규분포를 때려박는게 안전빵일 정도 입니다.

이 정규분포의 확률밀도함수는 다음과 같습니다.

수식이 존나 복잡해 보이지만 어쩔 수 없습니다.

가우스가 이딴식으로 만들었는걸요?

근데 확률 밀도 함수를 이용해 확률을 구하려고 할 때마다 이 함수를 쓰면 굉장히 머리가 아프겠죠?

그래서 표준화를 시켜서 표준 정규분포화를 시키면 됩니다.

바로 X~N(0,1)이렇게요.

그래서 확률분포표를 이용해서 하면 쉽게 확률을 계산할 수 있습니다.

다음은 정규분포의 특징을 알아보도록 하겠습니다.

특징은 조금 중요하니 다들 잘 보시길 바랍니다.

정규분포의 가장 큰 특징은 항상 좌우 대칭인 종모양이라는 것 입니다.

그리고 이 종모양의 중심은 항상 평균이자, 중앙값이며, 최빈값 입니다.

그리고 평균에 의해 분포의 위치가 정해집니다.

왜냐하면 평균은 중앙값이자 최빈값이기 때문이죠.

또한 표준편차가 크면 평평한 곡선이 되고 표준편차가 작으면 좀 더 오목한 곡선이 됩니다.

당연히 표준편차가 작아지면 중앙값으로부터 차이가 작아지니 더 중앙값에 모여지겠죠?

그 다음 확률변수 X가 어느 구간에 속할 확률은 그 구간과 분포함수로 이루어진 면적값입니다. 이는 앞에서 다룰 때 연속확률변수를 다룰 때 언급하였으니 넘어가겠습니다.

마지막 이항분포와 포아송분포는 일정조건이 만족될 때 정규분포로 근사가 가능합니다.

근데 왜 이게 중요하냐면, n의 값을 구하는건 너무 쉽지만 p나 모수 lambda를 측정하는건 너무 어렵기 때문입니다.

그렇기 때문에 평균과 분산만 있다면 바로 정규분포로 근사화 시켜서 풀어버리면 간단하기 때문에 중요한 것 입니다.