3일째 머리가 핑핑핑돈다 돌아....
집중이 하나도 안되냐 ㅠㅠ
길게 쓰기도 힘들.. 이제 좀 누울래 ㅠ
카이제곱 검정(Chi-squared analysis)은 일단 위대하신, 수통의 아버지, 칼 피어슨(Karl Pearson)이 정리한 교차분석 기법 중 하나다.
주로 문자 데이터(범주형 변수) 간의 연관성을 검증하는 데 활용된다라고 여러곳에서 말을 한다.
정의
먼저 통계학에서 중요한 개념에는 범주의 수에 대한 기대값에서 이탈하는 것이 있다.
여기서 기대값은 '데이터에서 특이하거나 주목할 만한 것이 없다' (상관관계가 없다)라는 의미로 정의가 가능한데 이를 '귀무가설' 이라고도 한다.
(귀무가설 관련해서는 나중에 다시..)
머 예를 들면 하나의 변수가 (성별) 다른 변수 (직장에서의 승진)과 독립적인지 검정하고 각 수치가 의미가 있는지 검정 할 수 있다.
여기서!
카이제곱통계량은 검정 결과가 독립성에 대한 귀무 기댓값에서 벗어난 정도를 측정하는 통계량이다.
(그리스 문자 는 영어로는 chi 라고 쓰고 읽기는 ‘카이’ 라고 한다)
조금 더 일반적인 설명으로는, 카이제곱 통계량은 관측 데이터가 특정 분포에 '적합'한 정도를 나타낸다 (적합도검정).
특히 여러개를 비교하면서 (A/B/C...검정) 효과가 서로 다른지 여부를 결정하는데 유용하다.
카이제곱값은 (관측빈도 - 기대빈도)2 / 기대빈도 로 계산한다.
여기서 기대빈도는 각 변수가 해당하는 특성이 나타날 확률 x 모집단의 전체 빈도수 이다.
값이 높을수록 기대한 것과 다르다는것을 뜻하고,
값이 낮을수록 기대 분포를 거의 따른다고 보면 된당
Example
첫째는 두 개의 확률변수가 서로 독립적인지 검정하는 것으로,
그 유명한 월마트의 맥주와 기저귀의 관계가 있는지, 즉 2개의 범주형 변수가 서로 독립적인지 아닌지를 파악할때이다.
두번째는 실제로 관측한 데이터가 예측한 분포를 따르는지 검정하는 것으로,
카지노의 주사위를 만들었다면 동일하게 1/6확률로 값이 나오는지를 확인할때이다.
실제로 그러한지 여부를 검증할 때 카이제곱 검정법을 활용한다.
생각보다 더 더 간단하게 책에서 소개를 하고있는데,, 책의 뒤를 보면 자세하게 공식과 함께 예시코드들도 나와있으니 다시 그때 체크하는걸로...
'Machine Learning > Practical Statistics' 카테고리의 다른 글
[Practical Statistics] 이항분포 추가자료(확률변수, 확률분포, 확률 밀도 함수, 누적 분포 함수, 확률 질량 함수, 누적 질량 함수) (0) | 2022.09.12 |
---|---|
[Practical Statistics] 이항분포 (0) | 2022.08.22 |
[Practical Statistics] 스튜던트의 t 분포 (t-distribution) (0) | 2022.06.09 |
[Practical Statistics] 긴 꼬리 분포 (0) | 2022.06.06 |
[Practical Statistics] 정규분포 (0) | 2022.06.04 |