- 이진 데이터(Binary Date): 값을 두개만 가지는 데이터, True or False, 1 or 0 이런 데이터를 뜻하고
- 범주 데이터(Categorical Data): 등급이나, MBTI 등 분류가 나누어져있는 데이터를 뜻한다.
이진데이터의 경우 분석하는데 큰 문제는 없다.
두 값의 비율이라던지, 분포?정도를 단순히 두개를 비교하는거니까.
범주데이터에 대해서 막대도표를 흔히 사용하는데 먼저 막대도표(Bar chart)와 히스토그램(Histogram)의 차이를 알려주면서 시작해보자.
막대도표의 경우 x축위에 각 범주들, y축에는 각 범주에 해당하는 횟수나 비율을 표시한다.
#간단한 막대도표 그리기
ax = dfw_airport.transpose().plot.bar(figsize=(4,4), legend=False)
ax.set_xlabel('Cause pof delay')
ax.set_ylabel('Count')
막대도표는 보는 것 처럼 x축에서 각 요인변수 (factored variable)의 서로 다른 범주를 나타내지만, 히스토그램의 x축은 수치를 나타낼수 있는 하나의 변수 값을 의미한다.
그래서 히스토그램의 표를 보면 막대들은 다 붙어있고, 막대도표는 떨어져있다.
최빈값 (mode)
말 그대로 데이터에서 가장 자주 등장하는 값을 의미한다.
위의 막대도표에서의 최빈값을 찾으라면 Inbound가 되겠다. 돌아오는 비행기들의 지연이 잦다는걸 의미.
범주형 데이터를 분석하는데 간단히 사용이 되지만, 수치 데이터에서는 잘 사용하지 않는다.
기댓값 (expected value)
앞에서 말했던 가중평군과 비슷한 의미이다.
위키백과의 쉬운 말을 빌려보자면, 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다.
조금 더 통계적으로 접근해보면 확률변수가 연속이냐 이산이냐에 따라 기댓값을 구하는 공식은 당연히 다르다.
아직 이정도까지 디테일 할 필요는 없고,,
예를들면 어떤 기업이 내년의 매출 기댓값, 혹은 비용 절감에 대한 효과를 나타낼때 기댓값을 생각하면 쉽다.
주관적 평가에 따른 미래의 기댓값과 각 확률 가중치 만큼 더하면 좀 더 정확하게 나타낼 수 있듯이.
확률 (Probability)
확률을 계속 언급하게 될 거고, 나도 확률을 많이 공부했고 재밌어한다.
일상에서도 나도모르게 확률을 사용 하고있다. 비가 오늘 올 확률이라던지, 스포츠에서의 확률이라던지.
더 딥하게 가면 복잡하게 확률을 파고들 수 있겠지만, 감사하게도? 이 책에서는 수학적+철학적인 확률까지는 들어가지 않는다고 한다.
위키에만 봐도 알 수 있듯이, 확률을 나눠놓은 페이지를 보면 수학적, 통계적, 기하학적 확률로 나누어 놨다.
얼만큼 복잡하고 딥한 학문인지 느낌이 온다.
'Machine Learning > Practical Statistics' 카테고리의 다른 글
[Practical Statistics] 두 개 이상의 변수 탐색하기 (0) | 2022.03.19 |
---|---|
[Practical Statistics] 상관관계 (0) | 2022.03.14 |
[Practical Statistics] 데이터 분포 탐색하기 (0) | 2022.03.04 |
[Practical Statistics] 변이 추정 (0) | 2022.03.03 |
[Practical Statistics] 위치 추정 (0) | 2022.03.01 |