메타코드 통계 기초의 모든 것 1강_통계량(3)
이번에도 통계 용어 및 공식에 대해 정리를 해보도록 하겠습니다.
해당 강의는 메타코드 기업에서 후원을 받아 수강한 뒤 해당 강의에 대해 수강한 뒤 제가 공부하여 정리하여 여러분들에게 제공해드리는 것 입니다.
분산(Variance)
먼저 분산(Variance)입니다.
분산은 여러분들이 고등학교 확률과 통계 과목에서 배웠던 그 분산이 맞습니다 하지만 여기서는 조금 다릅니다.
분산이라는 건 고등학교 과목에서 자료들이 평균을 기준으로 얼마나 퍼져있는지 혹은 분포 되어 있는지 알기 위해서 사용하는 거였죠.
여기서도 비슷합니다.
하지만 조금 의아한게 있죠. 분산은 편차 제곱의 합을 자료의 수로 나눈 값인데, (n-1)로 나눕니다.
이 부분은 조금 짚고 넘어갈게요.
우리가 모분산 즉 모집단의 분산을 구해야 한다면, n을 사용하여 n으로 나누어야 할 것 입니다.
하지만 여기서 우리가 구하는 건 표본에서 구하는 거기 때문에 n-1로 나눕니다.
- ???:근데 표본에서 구하는 건데 도대체 왜 -1을 굳이 빼는거임? 걍 표본 개수(n)만큼만 나누면 되는거 아님?
- 우리가 표본에서 구한다는 의미를 표본을 이용하여 모집단을 추정한다는 의미가 됩니다.
- 그리고 여기서 사용되는게 unbiasness 즉 불편성, 불편 통계량을 이용하여 모집단의 통계량을 예측하기 위해 사용 됩니다.
- 이 부분은 아 불편 통계량을 사용하여 모집단의 통계량을 예측하기 위해서구나 라고만 이해 하시면 됩니다. 이 부분은 후에 더 자세히 다루도록 하겠습니다.
표준편차(Standard Deviation)
표준 편차 또한 우리가 고등학교 확률과 통계에서 배운 것 입니다.
각 데이터가 평균과 얼마나 차이가 나는지 알기 위해서 표준 편차를 사용하였죠.
근데 여기서도 n-1을 사용하는 이유는 우리가 표본을 사용하기 때문 입니다.
예제 적용
그럼 앞서 배웟던 수식들을 예제에 적용 시키면서 이해를 한번 해보도록 하겠습니다.
???:님아 근데 우리가 알기론 표준 편차는 sigma 표시인데 왜 여기서 s로 표기함?
- 보통 우리가 표준 편차를 구할 때 모집단을 사용한 표준 편차를 구하게 된다면 sigma 기호를 사용하지만 표본을 사용하여 표준 편차를 구할 때는 s를 사용합니다.
???:근데 왜 저 두 수식이 같다는거임?
위 사진을 보도록 해봅시다. 위 사진만 봐도 이해가 쉽게 될거에요.
x^bar가 표본 평균이라고 하면, 이는 sigma x를 n으로 나누는 겁니다. 그리고 이를 이항 하면 nx^bar= sigma x가 되겠지요.
그리고 이 값을 다 넣어주면 최종적으로 두 수식이 같게 된다는 것을 알 수 있습니다.
이 부분은 여러분들이 직접 해봐야 알 수 있는 것 이기에 직접 해보시길 바랄게요.
자, 다음은 2번 문제 입니다.
표본의 크기가 10일때, data의 합은 20 , data의 제곱의 합은 75일 떄, 표본 분산의 값은?
이는 너무 쉽죠.
이는 이렇게 풀 수 있습니다.
댓글남기기