cs


1-3에서의 위치는 데이터의 특징을 요악하는 요소 중 하나. 

 

변이(variability)는 데이터 값이 얼마나 밀집해 있는지 혹은 얼마나 퍼져있는지 산포도(dispersion)를 알려줌.

(기본적 용어 정리가 잘 되어있어서 편하다)


  • Deviation: 관측값과 위치 추정값 사이의 차이 (편차, 오차, 잔차)

 

  • Variance: 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈 값. (분산, 평균제곱오차)

- 뭐 가장 유명한 변이 추정 방법은 당연히 분산이랑 표준편차 쓰는것이다. 

- 수학적으로 제곱한 값이 절댓값보다 통계 모델을 다루는 데 더 편리하다는 통계 이론이 이를 뒷받침

 

 

  • Standard Deviation (STD): 분산의 제곱근

 

  • Mean Absolute Deviation: 평균과의 편차의 절댓값의 평균 (평균절대편차, I1 노름, 맨해튼 노름)

- 편차의 평균은을 구하는건 좋게 보지 않는다고 한다, 왜냐하면 음의 편차는 양의 편차를 상쇄시켜버리기 때문.

- 그것을 보완하기 위해서 절댓값의 평균을 구하는 것이다. 

 

  • Median Absolute Deviation from the Median(MAD): 중간값과의 편차의 절댓값의 중간값

- 분산, 표준편차, 평균절대편차 이런건 모두 극단값에 로버스트하지 않다. (즉, 민감하다)

- 로버스트한 변이 추정값이 MAD이다.

 

  • Range: 데이터의 최댓값과 최솟값의 차이

- 범위는 그 순서 통계량에서의 min ~ max의 차이 

 

  • Order Statistics: 최소에서 최대까지 정렬된 데이터 값에 따른 계량형 (순위,,)

- 변이를 추정하는 또 다른 접근은 정렬된 데이터가 얼마나 퍼져 있는지 확인 하는 것

- 쉽게말해서 sorting(정렬) 데이터를 나타내는 통계량을 순서 통계량이라 부름 

 

 

  • Percentile: 크기가 있는 값들로 이뤄진 자료를 순서대로 나열할때, 백분율로 나타낸 특정 위치의 값을 나타내는 용어 

- 특잇값에 민감한 것을 피하기 위해서, 양 끝 값들을 지우고, 범위를 다시 알아보는, 백분위수 사이의 차를 가지고 추정 하는 방법도 있음 

 

https://en.wikipedia.org/wiki/Percentile_rank

  • Interquartile Range (IQR): 75번째 백분위수와 25번째 백분위수 사이의 차이 

 


자유도에 대한 내용이 잠시 나오는데, 그건 좀 더 디테일하게 예제나 나오면 그때 정리하겠음. 


 

예제: 주별 인구의 변이 추정

#STD
state['Population'].std()

#IQR
state['Population'].quantile(0.75) - state['Population'].quantile(0.25)

#MAD
robust.scale.mad(state['Population'])

위의 코드에서 print()를 넣어준 값

pandas에서 쉽게 std, iqr을 구할 수 있고, MAD를 위해서는 statsmodels 패키치의 strong.scale.mad를 사용.

 

 

+ Recent posts