cs

셜록인가? 왜 익숙하지...

회사에서 프로젝트 하나씩 할 때마다 저렇게 정리하는 듯하다.

 

(정신이 없다는 뜻...)


이제 Chapter 2에 들어간다. 

 

데이터 분석을 하면서 가장 중요한 건 샘플을 다룰 때 어떤 데이터를 효과적으로 다루는지, 그리고 편향을 최소화하는 것 같다. 

 

아무리 빅데이터, 빅데이터 이래도 데이터의 양보다는 질이 중요하다는 사실은 누구나 아는 사실일 거고, 

 

빅데이터 속에서도 작은 표본(샘플)을 가지고 모델을 개발하고 테스트 한다. 

 

즉 모집단과 표본 사이에서의 고민을 많이 해봐야한다. 

 

책에서만 봐도 다루는 양이 다른 챕터보다 길고 많기 때문에, 처음에 데이터의 표본을 설정하는 부분이 얼마나 중요한지 다시 알 수 있다.  

 

시작은 임의표본추출표본 편향에 대해서 정리한다. 

 


모집단과 표본

https://www.omniconvert.com/what-is/sample-size/

모집단과 표본을 아주 잘 보여주는 이미지다. 

 

  • 모집단 (population): 어떤 데이터 집단을 구성하는 전체 대상 혹은 전체 집합
  • 표본 (sample): 더 큰 데이터 집합으로부터 얻은 부분집합

 

그리고 모집단에서 표본을 설정하는 방법 중, 임의 표본추출이라는 말이 있는데, 한국말이 어려워서인지 이런 단어를 잘 안 써서인지 쉽게 말해 그냥 Random Sampling이다.  (무작위로 모집단에서 표본을 추출하는 것...)

 

그리고 여기서는 샘플링 방법에 대해서 상당히 참 어렵게도 써놨는데...  다시 정리를 해보자.  

그냥 글로 막 적어놓으면 보기 힘든데, 이거 참 정리 잘해주셨다

크게 샘플링 하는 방법에서 네 가지 정도만 간단하게 집고 넘어가 보자.

 

(물론 통계학에서는 확률 샘플링이냐, 비확률 샘플링이냐 그걸 먼저 나누긴 하지만, 여기서 일단 그것까지는 아직 안 나가는 것 같으니 나도 간단한 것만 정리하겠다.)

 

  • Simple Random Sample(임의 표본추출) : 무작위로 표본을 추출하는 방법
  • Systematic Sample(체계적 추출): 첫번째 요소만 무작위로 추출한 뒤, 그 목록에서 매번 k 번째의 숫자의 샘플을 가지고 오는 방법 ( 책에는 없지만 임의 표본추출과 비슷하다. 다만, 데이터가 주기적이면 이 방법을 피해야 한다)
  • Stratified Sample(층화 표본 추출): 모집단에서 층을 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 방식 
  • Cluster Sample(군집 표집): 모집단에서 우선 일차적으로 집단을 나눈 뒤에, 각 선정된 집단에서 표본을 추출하는 방식으로 다단계 방식이라고도 불린다. (이것 역시 책에서는 소개하지 않았지만 자주 사용하는 거고 포함되어있으니 알고 가자)

 

그리고 책에서는 복원 추출과 비 복원 추출을 간단히 알려주는데, 덧붙여서 설명이 필요할 것 같다. 

 

  • with replacement (복원 추출): 다음번에도 중복 추출이 가능하도록 해당 샘플을 다시 모집단에 포함시키는 방법
    • 추가로 설명하면, 두 가지의 값이 완전히 독립적이라는 뜻이다. 첫 번째 뽑은 거랑 두 번째 뽑은 게 전혀 관계가 없기 때문에 다시 모집단에 넣고 추출이 가능한 것. 수학적으로는 공분산이 0이라는 소리다.
  • without replacement (비복원 추출): 한번 뽑힌 원소는 추후에 다시 사용하지 않는 방법 
    • 반대로 비복원 추출에서는 추출할 때의 다음 값이 다음에도 영향을 미치기 때문에 다시 모집단에 넣을 수 없는 것이고, 독립적이지 않다고 말한다.

 

샘플 기반의 추정이나 모델링에서는 앞서 언급한 것처럼, 데이터의 양 보다는 샘플링된 데이터의 품질, quality가 정말 중요하다.

 

그래서 책에서는 data science에서 데이터 품질이란 완결성, 형식의 일관성, 깨끗함 및 데이터 값의 정확성을 말한다고 한다.

 

통계에서는 대표성이라는 개념을 추가해준다.

 

 

샘플링을 잘못하면 샘플링된 양이 엄청 많다고 하더라도, 샘플이 적은 모델보다 결과가 안 좋을 수 있다. 

 

즉, 편향(Bias)된 데이터를 사용하면(표본 편향) 오류를 초례할 수 있다.

 

쉽게 말해서, 표본 추출하는 과정에서 발생하는 계통적인(systematic) 오차를 의미한다.

 

(진심 원서를 가져다가 그대로 써서 그런건지, 내가 한국통계용어가 익숙하지 않은건지 어렵다.)

 

 

데이터의 크기 역시 이야기하면서 언제 빅데이터가 유용한지, 편향된 데이터의 위험성이라던지를 설명하는데. 생각보다 더 얕게 나가는 느낌이라 아쉽기도 하고 해서 담에 기회가 또 오면 그때는 길게 다뤄보겠다. 

 

표본평균과 모평균, 역시 간단하게 집고만 넘어가는데,

 

표본에대한 평균은 관찰을 통해 얻어지고 모집단에 대한 정보는 주로 작은 표본들로 부터 추론하기 때문에 나누어서 본다고도 간단히 이야기한다. 

 

내가 다시 한번 더 정리해서 말하자면,, 즉 표본평균의 평균이 모평균이다. 얼마나 간단하냐.. 

 

딥하게 통계적인걸 정리하지는 않겠다.  담에 분명 기회가 오면 그때 천천히 찬찬히 집고 넘어가야지.. 

 

(계속 책에서는 통계적, 수학적으로는 이러면서 뭔가 배척하는 느낌이 드는데,,ㅋㅋㅋㅋ 뭐 보는 관점이 다르고 집중하는게 다르니까 어쩔수 없다고 생각한다) 

+ Recent posts