cs

퇴근후 지하철에서의 나...

에너지를 쏟아서 그런건가, 

 

뭐 생각이 겁나 많아서인가 요즘 멍을 저렇게 계속 때리게 된다.

 

지치는건 뭐 익숙하다만, 의욕이 슬슬...허허 ㅠㅠ 


t-분포(t-distribution)는 정규분포와 생김새가 비슷하지만, 꼬리 부분이 약간 더 두껍고 긴 특징이 있다.

 

특히 표본 통계량의 분포를 성명하는데 광범위하게 쓰인다고 한다. 

일단 t 분포의 특징중 하나, 
표본평균의 분포는 일반적으로 t 분포와 같은 모양이며, 표본크기에 따라 다른 계열에 t 분포가 있다. 
그리고 표본이 클수록 더 정규분포를 닮은 t 분포를 형성한다.

 

근데 제목을 보면 스튜던트 (진짜 그 학생의 Student's)의 t 분포다. 

(이름에 대한 유래를 안집고 넘어가면 내가 아니지..)

 

이걸 맨처음에 제안했던 통계학자의 이름은 '윌리엄 고셋으로 (William Sealy Gosset) 해당 논문을 발표할때 가명으로 그냥 Student를 사용했다고 한다. 

 

논문을 발표할 당시에 기네스 양조장에서 일하고 있었는데, 적은 샘플에 대한 통계적 추정치가 잘 맞지 않아서 t 분포를 제안하고 논문을 발표해버렸다고 한다...

(일하다가 논문발표, 뭔가 흐름이 익숙해)

탄산이 없다며 원샷때리는 동생이 기억난당

자, 윌리엄이 느끼고 모두가 한번쯤 통계공부하면서 느꼈던 문제점!

 

적은 샘플량에 대한 문제는 t 분포로 어떻게 풀어나갔을까? 

 

고셋이 고민했던 질문은 '더 큰 모집단에서 추출한 표본평균의 표본분포는 무엇인가?' 라는 것에 고민하였고,

 

실험을 진행하였는데 실험 내용이 범죄자들의 신장과 왼손 가운데손가락 데이터 3,000건에서 무작위로 표본을 추출하는 실험을 하였다. 

 

그리고 위의 데이터로 재표본추출 실험을 진행했고, 3,000개의 데이터 중 무작위로 4개의 표본을 추출했다.

 

(이런 미친 실험 좋아... 뭐 우생학시대?가 되면서 범죄자들에 대한 데이터와 신체 또는 심리에 대한 특징과 범죄 경향에 상관관계를 밝히는데 관심이 많아졌다고 한다. )

 

(* 참고로 우생학종의 개량을 목적으로 인간의 선발육종을 찬성하는 생각이다. 인류를 유전학적으로 개량할 것을 목적으로 하여 여러 가지 조건과 인자 등을 연구하는 학문이라고 한다...)

 

 

아무튼 그래서 x축에 표준화된 결과 (z score)를 놓고, y 축에 빈도를 나타내는 도표를 만들어 지금의 t 분포로 알려진 함수를 그리고, 표본결과에 가장 적합한 함수를 구하며 그림으로 그 둘을 비교한 결과를 논문으로 발표하면서 알려졌다.

나도 언젠간 논문...?

 

 

좀더 디테일하게 접근해보자.

 

표준화된 여러 통계 자료를 t분포랑 비교하면서 신뢰구간을 추정할 수 있다. 

기본적인 t 분포를 구하는 공식

표본평균이 x̅  인, 크기 n 의 표본이 있다고 가정하고, s가 표본표준편차라면, 표본평균 주위의 90%신뢰구간은 다음과 같이 계산 할 수있다.

 

가운데의  t_{n-1} (0.05) 부분이 의미하는 것은 자유도를 갖는 t 분포 양 끝에서 5%를 잘라버리는 t 통계량을 의미한다. 

 

아래의 그래프를 보면 더 이해가 쉬울것이다.

(자유도는 추후에한번 더 설명하겠다)

표본 평균이나, 두 표본평균의 차, 회귀 파라미터를 구할때 주로 t 분포를 사용한다. 

(학생때 무슨 약 두가지의 효능 가지고 t test를 열심히 했던 기억이 있다)

 

그리고 사실 t 분포는 표본의 크기가 30보다 작으면 t 분포를 사용해야한다고 배웠다. 

 

그 말은 즉 30개가 넘어가면 표본정규분포와 비슷하기 때문에 , 모수가 작을때 t 분포를 사용하는 것.

 

 

 

요즘은 재표본추출이 그냥 코드 몇줄로 샤샤삭 되지만, 예전같은때에는 손으로 계속 하니까...

 

그래서 책에서도 살짝 언급이 있지만, 데이터 과학자로써 t 분포와 앞서 이야기했던 중심극한정리에 대해서 크게 알 이유가 없다고 한다. 

 

데이터 과학자에게는 불확실성과 변동성을 이해하고 정량화 하는 것이 중요하기 때문에, 그런 말이 나올 수 있지만, 특히 R에서는 A/B테스트나 회귀분석하는 통계 절차를 거쳐 나온 t 통계량은 매일 본다는 말도 있다.

 

모든 것에 기본이 되는 수학이고 기본 통계인데,,, 모르고 그냥 지나가는 것 보다는 개념정도는 간단히 알고 가는게 좋지 않을까 싶다.

+ Recent posts