[Practical Statistics] 변이 추정

2022. 3. 3. 20:54

1-3에서의 위치는 데이터의 특징을 요악하는 요소 중 하나.

변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 얼마나 퍼져있는지 산포도(dispersion)를 알려줌.

(기본적 용어 정리가 잘 되어있어서 편하다)

Deviation: 관측값과 위치 추정값 사이의 차이 (편차, 오차, 잔차)

Variance: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값. (분산, 평균제곱오차)

- 뭐 가장 유명한 변이 추정 방법은 당연히 분산이랑 표준편차 쓰는것이다.

- 수학적으로 제곱한 값이 절댓값보다 통계 모델을 다루는 데 더 편리하다는 통계 이론이 이를 뒷받침

Standard Deviation (STD): 분산의 제곱근

Mean Absolute Deviation: 평균과의 편차의 절댓값의 평균 (평균절대편차, I1 노름, 맨해튼 노름)

- 편차의 평균은을 구하는건 좋게 보지 않는다고 한다, 왜냐하면 음의 편차는 양의 편차를 상쇄시켜버리기 때문.

- 그것을 보완하기 위해서 절댓값의 평균을 구하는 것이다.

Median Absolute Deviation from the Median(MAD): 중간값과의 편차의 절댓값의 중간값

- 분산, 표준편차, 평균절대편차 이런건 모두 극단값에 로버스트하지 않다. (즉, 민감하다)

- 로버스트한 변이 추정값이 MAD이다.

Range: 데이터의 최댓값과 최솟값의 차이

- 범위는 그 순서 통계량에서의 min ~ max의 차이

Order Statistics: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형 (순위,,)

- 변이를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지 확인 하는 것

- 쉽게말해서 sorting(정렬) 데이터를 나타내는 통계량을 순서 통계량이라 부름

Percentile: 크기가 있는 값들로 이뤄진 자료를 순서대로 나열할때, 백분율로 나타낸 특정 위치의 값을 나타내는 용어

- 특잇값에 민감한 것을 피하기 위해서, 양 끝 값들을 지우고, 범위를 다시 알아보는, 백분위수 사이의 차를 가지고 추정 하는 방법도 있음

https://en.wikipedia.org/wiki/Percentile_rank

Interquartile Range (IQR): 75번째 백분위수와 25번째 백분위수 사이의 차이

자유도에 대한 내용이 잠시 나오는데, 그건 좀 더 디테일하게 예제나 나오면 그때 정리하겠음.

예제: 주별 인구의 변이 추정

#STD
state['Population'].std()

#IQR
state['Population'].quantile(0.75) - state['Population'].quantile(0.25)

#MAD
robust.scale.mad(state['Population'])

pandas에서 쉽게 std, iqr을 구할 수 있고, MAD를 위해서는 statsmodels 패키치의 strong.scale.mad를 사용.

저작자표시

'Machine Learning > Practical Statistics' 카테고리의 다른 글

[Practical Statistics] 이진 데이터와 범주 데이터 탐색 (0)	2022.03.12
[Practical Statistics] 데이터 분포 탐색하기 (0)	2022.03.04
[Practical Statistics] 위치 추정 (0)	2022.03.01
[Practical Statistics] 테이블 데이터 (0)	2022.02.27
[Practical Statistics] 탐색적 데이터 분석 (EDA) (0)	2022.02.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

simbbo blog