회사에서 프로젝트 하나씩 할 때마다 저렇게 정리하는 듯하다.
(정신이 없다는 뜻...)
이제 Chapter 2에 들어간다.
데이터 분석을 하면서 가장 중요한 건 샘플을 다룰 때 어떤 데이터를 효과적으로 다루는지, 그리고 편향을 최소화하는 것 같다.
아무리 빅데이터, 빅데이터 이래도 데이터의 양보다는 질이 중요하다는 사실은 누구나 아는 사실일 거고,
빅데이터 속에서도 작은 표본(샘플)을 가지고 모델을 개발하고 테스트 한다.
즉 모집단과 표본 사이에서의 고민을 많이 해봐야한다.
책에서만 봐도 다루는 양이 다른 챕터보다 길고 많기 때문에, 처음에 데이터의 표본을 설정하는 부분이 얼마나 중요한지 다시 알 수 있다.
시작은 임의표본추출과 표본 편향에 대해서 정리한다.
모집단과 표본
모집단과 표본을 아주 잘 보여주는 이미지다.
- 모집단 (population): 어떤 데이터 집단을 구성하는 전체 대상 혹은 전체 집합
- 표본 (sample): 더 큰 데이터 집합으로부터 얻은 부분집합
그리고 모집단에서 표본을 설정하는 방법 중, 임의 표본추출이라는 말이 있는데, 한국말이 어려워서인지 이런 단어를 잘 안 써서인지 쉽게 말해 그냥 Random Sampling이다. (무작위로 모집단에서 표본을 추출하는 것...)
그리고 여기서는 샘플링 방법에 대해서 상당히 참 어렵게도 써놨는데... 다시 정리를 해보자.
크게 샘플링 하는 방법에서 네 가지 정도만 간단하게 집고 넘어가 보자.
(물론 통계학에서는 확률 샘플링이냐, 비확률 샘플링이냐 그걸 먼저 나누긴 하지만, 여기서 일단 그것까지는 아직 안 나가는 것 같으니 나도 간단한 것만 정리하겠다.)
- Simple Random Sample(임의 표본추출) : 무작위로 표본을 추출하는 방법
- Systematic Sample(체계적 추출): 첫번째 요소만 무작위로 추출한 뒤, 그 목록에서 매번 k 번째의 숫자의 샘플을 가지고 오는 방법 ( 책에는 없지만 임의 표본추출과 비슷하다. 다만, 데이터가 주기적이면 이 방법을 피해야 한다)
- Stratified Sample(층화 표본 추출): 모집단에서 층을 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 방식
- Cluster Sample(군집 표집): 모집단에서 우선 일차적으로 집단을 나눈 뒤에, 각 선정된 집단에서 표본을 추출하는 방식으로 다단계 방식이라고도 불린다. (이것 역시 책에서는 소개하지 않았지만 자주 사용하는 거고 포함되어있으니 알고 가자)
그리고 책에서는 복원 추출과 비 복원 추출을 간단히 알려주는데, 덧붙여서 설명이 필요할 것 같다.
- with replacement (복원 추출): 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시키는 방법
- 추가로 설명하면, 두 가지의 값이 완전히 독립적이라는 뜻이다. 첫 번째 뽑은 거랑 두 번째 뽑은 게 전혀 관계가 없기 때문에 다시 모집단에 넣고 추출이 가능한 것. 수학적으로는 공분산이 0이라는 소리다.
- without replacement (비복원 추출): 한번 뽑힌 원소는 추후에 다시 사용하지 않는 방법
- 반대로 비복원 추출에서는 추출할 때의 다음 값이 다음에도 영향을 미치기 때문에 다시 모집단에 넣을 수 없는 것이고, 독립적이지 않다고 말한다.
샘플 기반의 추정이나 모델링에서는 앞서 언급한 것처럼, 데이터의 양 보다는 샘플링된 데이터의 품질, quality가 정말 중요하다.
그래서 책에서는 data science에서 데이터 품질이란 완결성, 형식의 일관성, 깨끗함 및 데이터 값의 정확성을 말한다고 한다.
통계에서는 대표성이라는 개념을 추가해준다.
샘플링을 잘못하면 샘플링된 양이 엄청 많다고 하더라도, 샘플이 적은 모델보다 결과가 안 좋을 수 있다.
즉, 편향(Bias)된 데이터를 사용하면(표본 편향) 오류를 초례할 수 있다.
쉽게 말해서, 표본 추출하는 과정에서 발생하는 계통적인(systematic) 오차를 의미한다.
(진심 원서를 가져다가 그대로 써서 그런건지, 내가 한국통계용어가 익숙하지 않은건지 어렵다.)
데이터의 크기 역시 이야기하면서 언제 빅데이터가 유용한지, 편향된 데이터의 위험성이라던지를 설명하는데. 생각보다 더 얕게 나가는 느낌이라 아쉽기도 하고 해서 담에 기회가 또 오면 그때는 길게 다뤄보겠다.
표본평균과 모평균, 역시 간단하게 집고만 넘어가는데,
표본에대한 평균은 관찰을 통해 얻어지고 모집단에 대한 정보는 주로 작은 표본들로 부터 추론하기 때문에 나누어서 본다고도 간단히 이야기한다.
내가 다시 한번 더 정리해서 말하자면,, 즉 표본평균의 평균이 모평균이다. 얼마나 간단하냐..
딥하게 통계적인걸 정리하지는 않겠다. 담에 분명 기회가 오면 그때 천천히 찬찬히 집고 넘어가야지..
(계속 책에서는 통계적, 수학적으로는 이러면서 뭔가 배척하는 느낌이 드는데,,ㅋㅋㅋㅋ 뭐 보는 관점이 다르고 집중하는게 다르니까 어쩔수 없다고 생각한다)
'Machine Learning > Practical Statistics' 카테고리의 다른 글
[Practical Statistics] 통계학에서의 표본분포 (0) | 2022.03.26 |
---|---|
[Practical Statistics] 선택 편향 (0) | 2022.03.24 |
[Practical Statistics] 두 개 이상의 변수 탐색하기 (0) | 2022.03.19 |
[Practical Statistics] 상관관계 (0) | 2022.03.14 |
[Practical Statistics] 이진 데이터와 범주 데이터 탐색 (0) | 2022.03.12 |