[Practical Statistics] 이진 데이터와 범주 데이터 탐색

2022. 3. 12. 12:46

이진데이터의 경우 분석하는데 큰 문제는 없다.

두 값의 비율이라던지, 분포?정도를 단순히 두개를 비교하는거니까.

범주데이터에 대해서 막대도표를 흔히 사용하는데 먼저 막대도표(Bar chart)와 히스토그램(Histogram)의 차이를 알려주면서 시작해보자.

막대도표의 경우 x축위에 각 범주들, y축에는 각 범주에 해당하는 횟수나 비율을 표시한다.

#간단한 막대도표 그리기 

ax = dfw_airport.transpose().plot.bar(figsize=(4,4), legend=False)
ax.set_xlabel('Cause pof delay')
ax.set_ylabel('Count')

막대도표는 보는 것 처럼 x축에서 각 요인변수 (factored variable)의 서로 다른 범주를 나타내지만, 히스토그램의 x축은 수치를 나타낼수 있는 하나의 변수 값을 의미한다.

그래서 히스토그램의 표를 보면 막대들은 다 붙어있고, 막대도표는 떨어져있다.

말 그대로 데이터에서 가장 자주 등장하는 값을 의미한다.

위의 막대도표에서의 최빈값을 찾으라면 Inbound가 되겠다. 돌아오는 비행기들의 지연이 잦다는걸 의미.

범주형 데이터를 분석하는데 간단히 사용이 되지만, 수치 데이터에서는 잘 사용하지 않는다.

앞에서 말했던 가중평군과 비슷한 의미이다.

위키백과의 쉬운 말을 빌려보자면, 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다.

조금 더 통계적으로 접근해보면 확률변수가 연속이냐 이산이냐에 따라 기댓값을 구하는 공식은 당연히 다르다.

아직 이정도까지 디테일 할 필요는 없고,,

예를들면 어떤 기업이 내년의 매출 기댓값, 혹은 비용 절감에 대한 효과를 나타낼때 기댓값을 생각하면 쉽다.

주관적 평가에 따른 미래의 기댓값과 각 확률 가중치 만큼 더하면 좀 더 정확하게 나타낼 수 있듯이.

확률을 계속 언급하게 될 거고, 나도 확률을 많이 공부했고 재밌어한다.

일상에서도 나도모르게 확률을 사용 하고있다. 비가 오늘 올 확률이라던지, 스포츠에서의 확률이라던지.

더 딥하게 가면 복잡하게 확률을 파고들 수 있겠지만, 감사하게도? 이 책에서는 수학적+철학적인 확률까지는 들어가지 않는다고 한다.

위키에만 봐도 알 수 있듯이, 확률을 나눠놓은 페이지를 보면 수학적, 통계적, 기하학적 확률로 나누어 놨다.

얼만큼 복잡하고 딥한 학문인지 느낌이 온다.

[Practical Statistics] 두 개 이상의 변수 탐색하기 (0)	2022.03.19
[Practical Statistics] 상관관계 (0)	2022.03.14
[Practical Statistics] 데이터 분포 탐색하기 (0)	2022.03.04
[Practical Statistics] 변이 추정 (0)	2022.03.03
[Practical Statistics] 위치 추정 (0)	2022.03.01

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

simbbo blog