[Practical Statistics] 선택 편향

2022. 3. 24. 15:45

상태가 좋지 않다...

밥먹고 약먹으면, 딱 그때 반짝 한다.

지금이야..!

책에서 요기 베라 라는 사람의 말을 살짝 바꿔서 이야기 하는것으로 시작 된다.

요기 베라의 본명은 'Lawrence Peter "Yogi" Berra'고 별명이 '요기'인 사람이다. 참고로 뉴욕 양키스 최고의 포수로 It ain't over till it's over 라는 최고의 명언의 주인공이다.

If you don't know where you are going, you'll end up someplace else.
- by Yogi Berra

'어디로 가고 있는지 모르면, 당신은 결국 원하지 않는 곳으로 가게 될 것이다' 라는 요기 베라의 말을 책에서는,

당신이 뭘 찾고 있는지 모르겠다면, 더 열심히 찾아보라. 결국 그것을 찾게 될 것이다.

이렇게 바꿔서 시작한다.

약간 회사에서의 나를 보고 하는 말 같다.

목적을 항상 가지고 분석을 하지만, 데이터 풀에 빠져 허우적 거리고 있는.. 계속 허우적 거리다 보면 결과가 또 나오는.ㅋㅋㅋ

이처럼, 뭔가 흥미로운 것을 찾아서 광범위하게 데이터를 살피는 것을 데이터 스누핑(data snooping)이라고 부른다.

또한

이번 챕터에서 이야기하는 선택 편향은 데이터를 의식적이든 무의식적이든 선택적으로 고르는 관행을 말한다.

결국은 오해의 소지가 있거나, 단편적 결과를 가지고 오게 된다는 말이다.

빅데이터를 반복적으로 조사하는 것이 데이터 과학의 중요한 명제라고 설명하면서, 더더욱 선택 편향에 조심해야한다고 말한다.

특히 방대한 검색효과라고 불리는 것을 조심해야 한다고 하는데, 중복 데이터 모델링이나 너무 많은 예측 변수를 고려하는 모델링에서 비롯되는 편향 혹은 비재현성을 말한다.

그래서 책에서는 성능을 검증하기 위해서 둘 이상의 홀드아웃 세트를 이용하면 이것을 방지 할 수 있다고 설명하고, 또는 목표값 섞기(본질적으로는 순열검정)을 추천했다.

홀드아웃 세트는 초기의 데이터 셋을 별도로 훈련 셋이랑 테스트 셋으로 나누는 방식을 말한다.

다들 보통 요즘에는 그렇게 할거다. 캐글이든 뭐든 보면 머신 돌리기전에 다들 테스트랑 트레이닝 셋을 나누고 시작하니까.

보통 훈련, 검증, 테스트 이렇게 세개로 나누는 걸로 알고있다.

지금까지 그냥 셋(set)을 나눴다면, 제대로된 이유를 처음으로 이 책에서 설명해주는 느낌이다.

평균으로의 회귀

Regression to the Mean 이란 주어진 어떤 변수를 연속적으로 측정했을 때 나타는 현상이다.

예외적인 경우가 관찰된다고 하더라도, 그 다음은 중간정도의 경우가 관찰되는 경향이 있다.

그래서 너무 예외경우를 특별하게 생각하고 의미를 부여하게 되면, 선택 편향으로 이어 질 수있다.

책에서는 스포츠와 골턴이야기를 해주는데,

스포츠의 경우 신인상을 탄 선수가 2년차부터 성적이 좋지 않은 경우가 대부분인다.

스포츠의 경우 가장 중요하게 생각되는 요소가 두가지 있는데, 실력과 행운이다.

평균에 대한 회귀는 일종의 선택편향으로 나타나는 결과이기 때문에, 성적으로 신인을 뽑을 때 실력도 있지만, 운도 동시에 있었을 것이다.

다음시즌에는 실력이야 그대로 유지 되겠지만, 대부분 운이 없는 경우가 많아 성적이 떨어질 것이다.

이런 현상을 프랜시스 골턴이라는 사람이 먼저 증명했는데, 유전적인 경향이 꼭 다음 자손에게 이어지는 것은 아니였다는 것을 말해주었다.

[Practical Statistics] 부트스트랩 (0)	2022.04.09
[Practical Statistics] 통계학에서의 표본분포 (0)	2022.03.26
[Practical Statistics] 데이터와 표본분포 (0)	2022.03.20
[Practical Statistics] 두 개 이상의 변수 탐색하기 (0)	2022.03.19
[Practical Statistics] 상관관계 (0)	2022.03.14