메타코드 통계 기초의 모든 것 1강_통계량(1)
메타코드 서포터즈
안녕하세요.
이번에 운이 좋게 메타코드 대학생 서포터즈로 선정되어 메타코드의 후원을 받으며 메타코드의 질 좋은 강의를 들으며 공부하고 정리 할 수 있게 되었습니다.
앞으로 메타코드의 후원을 통해 확률과 통계에 대해 공부를 하고 여러분들에게 질 좋은 내용들을 알려드릴 수 있게 되어 너무 기쁘네요.
앞으로 확률과 통계 과목에 대한 강의를 수강한 후 여러분들에게 인공지능에 필요한 수학적 지식들을 잘 요약하여 정리해 드리도록 하겠습니다.
확률과 통계란 무엇일까?
먼저 확률과 통계는 어떤 과목일까요?
그리고 이 과목을 먼저 왜 인공지능을 하는 우리가 배워야 하는지도 잘 알아야 하지요.
- ???: 그냥 수학 과목이니까 문제만 잘 풀어서 학점만 잘 따면 되는 과목이지 왜 우리가 알아야함?
확률과 통계라는 과목은 우리가 일상 생활에서 혹은 비즈니스 사업을 하는 상황에서 여러가지 사건이 발생하였을 때, 해당 사건을 해결하기 위해 어떤 관점으로 이를 바라보고 해결해야 할지 분석 하고 이를 수치 적으로 혹은 시각화하여 분석하는 학문입니다.
그리고 이를 기반으로 만들어진 것이 인공지능이기 때문에 꼭 알아야 하며, 용어 정리가 굉장히 중요합니다.
왜냐면 이 용어를 모르면 어떤 방식으로 문제를 해결해야 적합하며, 어떤 방식으로 분석 해야 하는지 접근 자체가 불가능 하기 때문입니다.
그렇기 때문에 용어를 정리 하는게 굉장히 중요합니다.
그럼 먼저 통계란 무엇인지에 대해 다루도록 하겠습니다.
통계는 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다룹니다.
그 중에서 핵심적인 부분은 세 가지가 있는데요.
Design(설계/계획), Description(요약), Inference(추론) 이 세 가지 입니다.
Design은 해당 문제를 어떻게 해결하고 분석할지 계획을 세우고 설계하는 것 입니다.
Description은 데이터를 요약한 뒤 이를 표현하기 위해 시각적 즉 그래프로 나타내거나 수치적(numerical)표로 나타내는 방법입니다.
Inference은 표본에 기반한 모집단에 대한 추론/예측을 하는 방법입니다.
벌써 확률과 통계에 대한 용어가 나왔죠. 이를 적용 시키기도 전에 공부하기 위해서도 용어를 잘 알아야 하는 상황입니다.
그러니 꼭 용어를 이해하고 외우도록 합시다.
확률과 통계에 관한 용어 정리
모집단(Population): 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합.
-즉 우리가 예를 들어 대한민국 수도권 사람들의 인구 조사를 한다고 합시다.
-이때 우리가 관심이 있는 것은 대한민국 수도권 사람입니다. 그리고 이 대한민국 수도권 사람들이
바로 모집단이 되는 것 입니다.
모수(Parameter): 모집단에 대한 수치적 요약
-여기서 수치적 요약이라는 것은 위의 예시와 같이 모집단(고등학생)들의 1일 평균 온라인 게임 플레이 시간(모수)로 나타낸 것 입니다.
-또한 모수(Parameter)만으로 모수(population)를 design 가능합니다. 이는 즉 통계적 추론이 가능합니다.
표본(Sample): 모집단을 적절히 대표하는 모집단의 일부
-표본의 경우 모집단의 일부(이 단어가 굉장히 중요) 일부를 추출하는 것 입니다.
-또 위의 예시를 인용하여 예시를 들어보자면 대한민국 고등학생들의 1일 평균 온라인 게임 플레이
시간을 측정하기 위해서 대한민국 고등학생들 중에서 1000명만 추출하여 조사했다고 하면, 이 1000명이 바로 표본이 됩니다.
통계량(Statistic): 표본에 대한 수치적 요약
-통계량은 우리가 표본에서 들었던 예시와 같이 1000명의 샘플을 추출하여 조사했다고 하면 이 조사한 것이 바로 통계량이 되는 겁니다.
먼저 이 4가지 용어를 정리를 잘해야 합니다.
자료의 종류
다음은 자료의 종류 입니다.
자료는 크게 4가지로 나눌 수 있는데요.
이 4가지는 명목형 자료, 순서형 자료, 이산형 자료, 연속형 자료로 나눌 수 있습니다.
그럼 왜 굳이 이러한 자료를 구분해서 사용하는 걸까요?
자료를 구분하는 이유는 바로 표본은 바로 데이터로 표현이 되는데 데이터가 바로 자료이기 때문입니다.
그렇기 때문에 우리가 해결 해야 하는 문제에서 쓰이는 자료가 어떤 형태인지 알아야 해당 문제를 접근할 때 접근 방식을 계획할 수 있습니다.
명목형 자료는 단순히 속성을 분류하기 위함입니다.
예를 들어 우리에게 가장 친근한 자료가 바로 mbti이죠. mbti또한 사람의 성향 즉 속성을 나타내기 때문입니다.
순서형 자료는 상대적인 크기를 비교하기 위함입니다.
상대적인 크기라고 하면 단순히 수치화가 불가능하며, 비교 대상이나 기준에 따라 비교 결과가 달라지게 되죠.
예를 들어 대한민국 대학의 학벌 순위, 혹은 학업 만족도나 강의 평가 등 상대적인 비교를 하고 평가하기 위한 자료 입니다.
이산형 자료는 단순히 셀 수 있는 자료이냐, 없는 자료이냐를 나타냅니다.
마지막으로 연속형 자료는 셀 수 없는 자료들을 나타내기 위해 사용합니다.
???:예시로 길이나 시간을 말했는데, 시간이나 길이는 셀 수 있는거 아님? 1m, 1시간 이렇게 셀 수 있자나.
이를 셀 수 있는 이유는 우리가 일정한 구간을 기준으로 정한 뒤 나누었기 때문에 셀 수 있는 것 입니다.
만약 길이의 경우 단위가 없으면 어떻게 될까요? 이는 단위 즉 우리가 일정한 구간을 나누어 둔 기준이 없기 때문에 길게 연결된 연속형으로 밖에 표현 할 수 없습니다.
시간은 어떻게 될까요? 시간의 경우, 우리 초, 분 , 시로 일정한 구간을 나누지 않으면 셀 수 없게 됩니다.
또한 단위를 쓰더라도 1cm 표현을 0.01cm n개, 0.001cm m개, ….,0.00000000…1cm x개 이렇게 표현 할 수 도 있습니다. 이를 다 셀 수 있을까요? 셀 수 없습니다. 끝도 없기 때문이죠.
이렇게 오늘은 간단하게 확률과 통계에서 가장 많이 쓰이는 용어와 자료의 종류에 대해 알아보았습니다.
앞으로 메타코드 기업에서 양질의 강의를 듣고 해당 강의들의 후기 및 해당 강의를 수강하며 공부한 내용들을 정리하여 꾸준히 올리도록 하겠습니다.
댓글남기기