4회만 보고 프로야구 승리팀을 예측하면?   

2009. 5. 11. 17:00
반응형

프로야구 경기를 보는 동안(보기 전이 아님) 어느 팀이 승리할 지 알아맞히려면 어떤 정보들이 필요할까? 팀의 승률, 팀 방어율, 팀 타율 등 팀 성적은 물론이고 선발투수의 방어률, 피안타율, 타자의 출루율, 혹은 그날의 날씨, 홈경기 여부 등 수많은 정보들을 따져봐야 승리팀을 알 수 있을까?

물론 충분한 크기의 다양한(그리고 좀 복잡한) 데이터가 주어지고 분석만 잘 한다면 (완벽하지는 않지만) 근사한 예측 적중률을 보이는 모델을 만들 수 있다. 그러나 그렇게 하려면 시간이 너무 오래 걸려서 경기가 이미 끝나버리고 만다.

해서, 나는 이런 가설을 세웠다.

4회까지의 점수만 보면, 그 경기의 승리팀을 70% 적중률로 예측할 수 있다.

이 가설의 아이디어는 게르츠 기거렌처의 '생각이 직관에 묻다'에서 얻었다. 그 책은 농구 경기에서 팀별 승률과 전반전 스코어만 보면 승리팀을 78%의 적중률로 맞힐 수 있다는 결과를 소개한다.

여러분이 A팀과 B팀 간의 야구 경기를 4회까지만 관전하고 그 경기의 승리팀이 어디인지 알아맞힌다면, 그 적중율은 얼마나 될까? 50%, 아니면 60%? 시간이 없어서 4회까지만 경기를 봐야 한다면, 이 가설의 증명 여부가 도움이 될지 모른다.

가설을 증명하기 위해 직접 실험을 해보기로 했다. 실험의 순서는 다음과 같다.

1. 2009년 4월 4일부터 5월 10일까지 치러진 124개의 경기 결과를 확보했다.

2. 각 경기의 4회까지 점수 결과를 일일이 수집했다 (좀 힘들었다. -_-).

3. 4회까지의 점수가 앞서는 팀이 승리팀이 되리라 예측했다.

4. 만일 4회까지의 점수가 동점이면, 2008년의 승률이 높은 팀이 승리팀이 되리라 예측했다.

[실험 결과]
엑셀 파일에 이와 같은 로직을 담아 시뮬레이션해 보니, 71.8%라는 적중률이 도출됐다(비긴 경기를 감안하면 77% 정도가 된다). 가설보다 높은 수치다. 이 결과를 바꿔 생각하면, 5회 이후에 역전이 짐작만큼 많이 일어나지 않는다는 의미로 해석된다(아래의 엑셀 파일 참조). '우리팀이 역전하기를' 고대하지만, 실망스럽게도 역전할 확률은 기껏해야 30%정도 밖에 되지 않는다.


이 실험은 시즌 초반에 해당하는 경기에만 적용했는데, 시즌 마지막 경기까지 적용한다면 적중률이 다소 변하리라 예상된다.


불확실성이 큰 상황에서 의사결정 내릴 때마다 정보가 부족하기 일쑤다. 좀더 많은 정보, 지식, 방법론을 적용하면 예측의 정확성이 커질 텐데, 그러지 못해서 안타까워 하는 경우가 많다. "아, 다양한 데이터를 충분히 확보한다면 좋겠는데..."라며 탄식한다. 많은 정보가 예측의 적중률 향상시킨다고 믿는다.

그러나, 적은 정보만 가지고도 꽤 근사한 적중률로 예측이 가능한 경우가 의외로 많다. 많은 데이터와 정보를 가진다고 해서 예측의 적중률을 높이지는 못한다. 추가되는 데이터의 '한계(Marginal)예측적중률'은 '한계효용'처럼 급격히 체감된다. 100%에 가까운 적중율을 얻으려면 거의 무한대의 정보가 필요할지도 모른다.

불확실하고 복잡한 시대, 간단한 판단법으로 쉽게 살아도 되지 않을까?

반응형

  
,