cs

오늘 저녁은 고기인가...

연휴 순삭하는 느낌 너무 싫다ㅠㅠ

 

낼 회사 출근인거에 스트레수, 할일이 엄청 많을게 벌써 느껴짐에 스트레스...

 

 

오늘 저녁은 고기를 먹구 기분 풀어봐야겠음...


앞선 포스트에서는 정규분포를 보았다면, 

 

이번에는 긴 꼬리 분포를 한번 알아보자.

 

항상 정상적, 아니 좀 이쁘게 데이터 나오는 경우는 현실에서 정말 극히극히 드물다.

(회사 내의 데이터만 보더라도 아주 그냥 long tail, skew가 강력한 데이터가 많아서...)

 

책에서도 바로 말해주니, 단어 알고 가봅시다.

 

  • 꼬리(tail): 적은 수의 극단값이 주로 존재하는, 도수분포의 길고 좁은 부분
  • 왜도(skewness): 분포의 한쪽 꼬리가 반대쪽 다른 꼬리보다 긴 정도

오차나 표본 통계량의 분포를 볼 때 정규분포는 적절하고 유용할 수 있지만, 정규분포가 일반적으로 원시 데이터 분포의 특징을 나타내지 않는다.

 

때로는 비스듬히 기울어져 있거나 데이터가 이산적일 수도 있는 것이다. 

 

그런 경우 모두 긴 꼬리(이하: long-tail) 형테의 분포를 가질 수 있다. 

 

사실 실제 업무나 데이터를 계속 보게되면, long-tail쪽의 데이터가 더 많기도 하기에 더 유심히 체크해봐야한다.

 

책에 좋은 예제가 나와있는데,

 

나심 탈레브(Nassim Nicholas Taleb)는 '주식시장의 현자'라고 불리는 사람인데 

 

주식 시장의 붕괴와 같은 이례적인 사건이, 정규분포로 예측되는 것보다 훨씬 더 자주 일어날 수 있다고 예측하는 흑고니이론???을 제안했다.(블랙스완 이론)

 

(처음에 흑고니가 뭐지 하다가,, 영어로 Black Swan Theory라고 써있는걸 보고... 이게 번역의 한계인가? 굳이 이걸 번역?이라는 생각이 들었다.. 한국어로 해도 흑조이론 아냐?...)

 

궁금하니까 블랙스완 이론 잠시 집고 넘어가보자! ㅎ

 

 

블랙스완 이론

이 이론을 설명하는 탈레브의 개념은 다음과 같다.
  1. 미지의 영역에 경제 기폭이 존재한다.
  2. 그 기폭은 한번 터지면 엄청난 후폭풍을 감수해야 하며, 대개 기존의 체제나 기업 등의 단체가 붕괴되며 질서가 재편되는 사건은 이러한 예측하지 못한 변동에 의해 야기된다.
  3. 그러면서도 후폭풍이 끝나고 나면 그 원인을 미리 명확하게 알 수가 있었다고 사후적으로 강변하지만, 다음 번의 또다른 블랙스완이 언제 어떻게 나타날지는 예측하지 못한다.

즉, 대부분의 사람들은 뒷북 치는거,, 

 

사후결과에 대한 분석만 하고 복잡한 사전 예측이라는 현실에서 눈 돌리는것을 비판하는 이야기 같다.

 

또한 정규분포곡선을 쓰지 말아야 할 곳에 사용하니 많은 문제가 야기된다고 주장을 하는 것이다.

 

 

다시 책으로 가보자.

QQ-Plot을 통한 Long-Tail 파악 (with 삼성전자 수익률)

주가 수익률은 데이터의 long-tail특성을 설명하기 좋은 예라고 한다.

 

책에서는 넷플릭스 데이터를 사용하는데, 나는 그냥 삼성전자 수익률을 가지고 와서 파악해보겠다.

 

import FinanceDataReader as fdr


#삼성전자
df = fdr.DataReader("005930", "2020", "2023")
df.tail()

언제나 그렇듯이 fdr을 통해서 주가를 가지고 온다

 

20년부터 23년까지의 삼전 주가를 가지고왔다.

 

그리고 나서 일일 수익률 (change)에 대한 QQ-plot을 그려준다면, 

 

samsung = np.diff(np.log(df["Change"][df["Change"]>0]))

fig, ax = plt.subplots(figsize=(5,5))
stats.probplot(samsung, plot=ax)

plt.tight_layout()
plt.show()

삼성전자 수익률 qq-plot

이런식의 그래프가 나오는데, 

 

사실 삼전의 데이터는 생각보다 정규분포에 가까운 것이라고 보여진다. 

 

물론 위에서 좀 벗어나는 지점이 보이긴 하지만,,,

 

책에서 예제로 설명하는 넷플릭스 주식의 수익률 그래프를 가지고 와서 비교해보면

 

넷플릭스 수익률 qq-plot

linear line을 기준으로 아래쪽은 좀더 선에서 내려온, 그리고 위쪽은 선으로부터 더 위로 올라온 모습이 보여진다.

 

삼전이랑 비교해도 좀 더 크게 차이가 나보이는데, 

 

이는 데이터가 정규분포를 따른다고 해도 예상되는 것보다 훨씬 더 많은 극단값을 관찰할 가능성이 있음을 말해준다.

 

또한, 즉 빨간 선에 가까울 수록, 평균에서의 표준편차 이내에 있는 데이터들은 선에 가까이 있다고 봐도 된다.

 

 

 

+ Recent posts