cs

쩝...


  • 이진 데이터(Binary Date): 값을 두개만 가지는 데이터, True or False, 1 or 0 이런 데이터를 뜻하고 
  • 범주 데이터(Categorical Data): 등급이나, MBTI 등 분류가 나누어져있는 데이터를 뜻한다. 

이진데이터의 경우 분석하는데 큰 문제는 없다. 

 

두 값의 비율이라던지, 분포?정도를 단순히 두개를 비교하는거니까. 

 

 

범주데이터에 대해서 막대도표를 흔히 사용하는데 먼저 막대도표(Bar chart)히스토그램(Histogram)의 차이를 알려주면서 시작해보자.

 

막대도표의 경우 x축위에 각 범주들, y축에는 각 범주에 해당하는 횟수나 비율을 표시한다. 

#간단한 막대도표 그리기 

ax = dfw_airport.transpose().plot.bar(figsize=(4,4), legend=False)
ax.set_xlabel('Cause pof delay')
ax.set_ylabel('Count')

막대도표는 보는 것 처럼 x축에서 각 요인변수 (factored variable)의 서로 다른 범주를 나타내지만, 히스토그램의 x축은 수치를 나타낼수 있는 하나의 변수 값을 의미한다. 

 

그래서 히스토그램의 표를 보면 막대들은 다 붙어있고, 막대도표는 떨어져있다. 

 

최빈값 (mode)

말 그대로 데이터에서 가장 자주 등장하는 값을 의미한다. 

 

위의 막대도표에서의 최빈값을 찾으라면 Inbound가 되겠다. 돌아오는 비행기들의 지연이 잦다는걸 의미.

 

범주형 데이터를 분석하는데 간단히 사용이 되지만, 수치 데이터에서는 잘 사용하지 않는다. 

 

기댓값 (expected value)

앞에서 말했던 가중평군과 비슷한 의미이다.  

 

위키백과의 쉬운 말을 빌려보자면, 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 

 

조금 더 통계적으로 접근해보면 확률변수가 연속이냐 이산이냐에 따라 기댓값을 구하는 공식은 당연히 다르다. 

 

이산확률일때의 기댓값 
연속일때의 기댓값 공식

아직 이정도까지 디테일 할 필요는 없고,,

 

예를들면 어떤 기업이 내년의 매출 기댓값, 혹은 비용 절감에 대한 효과를 나타낼때 기댓값을 생각하면 쉽다. 

 

주관적 평가에 따른 미래의 기댓값과 각 확률 가중치 만큼 더하면 좀 더 정확하게 나타낼 수 있듯이.

 

 

확률 (Probability)

확률을 계속 언급하게 될 거고, 나도 확률을 많이 공부했고 재밌어한다. 

 

일상에서도 나도모르게 확률을 사용 하고있다. 비가 오늘 올 확률이라던지, 스포츠에서의 확률이라던지. 

 

더 딥하게 가면 복잡하게 확률을 파고들 수 있겠지만, 감사하게도? 이 책에서는 수학적+철학적인 확률까지는 들어가지 않는다고 한다. 

 

위키에만 봐도 알 수 있듯이, 확률을 나눠놓은 페이지를 보면 수학적, 통계적, 기하학적 확률로 나누어 놨다.

 

얼만큼 복잡하고 딥한 학문인지 느낌이 온다. 

보통 일상생활에서 사용하는 확률이 이런 느낌이라면 
내가 배운 통계는 이쪽이 더 가깝다

 

+ Recent posts